人工智能培训成本正在飙升,只有少数大公司能够负担得起所需的高质量数据和计算能力
构建和支持现代人工智能模型需要大量投资,可能超过数亿美元。据估计,这些成本在不久的将来可能会达到10亿美元。
这一支出主要是由于使用Nvidia GPU等实体的计算能力,每个GPU的成本约为30000美元,可能需要数千美元才能提高效率。研究人员表示,用于开发此类模型的训练数据集的质量和数量非常重要。
OpenAI的James Betker认为,模型的性能是训练数据的函数,而不是模型的设计或架构。他的断言是,在大数据集上训练的模型将达到相同的结果。因此,数据是人工智能技术进步的关键。
人工智能公司Anthropic AI的首席执行官Dario Amodei在in Good Company播客中分享了他对这些挑战的财务方面的见解。他表示,训练目前的模型,如ChatGPT-4,估计耗资约1亿美元,未来几年训练未来模型可能需要100亿至1000亿美元。
生成性人工智能模型,以及大公司创建的模型,其核心是统计模型。因此,他们使用了很多例子来预测最可能的结果。艾伦人工智能研究所(AI2)的Kyle Lo表示,性能的提高主要归功于数据,尤其是在训练环境保持一致的情况下。
获取高质量数据的高昂成本使人工智能的发展成为发达国家少数大公司的专利。这种资源的聚集也引起了人们对人工智能技术可用性和滥用可能性的担忧。
仅OpenAI就在数据许可证上花费了数亿美元,Meta也考虑过购买数据访问的出版商。人工智能培训数据市场预计将扩大,数据代理可能会从中受益。
问题源于可疑的数据采集实践。据报道,许多公司在未经内容所有者授权的情况下捕获了大量内容,一些公司利用来自不同平台的数据,不向用户支付报酬。正如我们之前报道的那样,OpenAI使用其Whisper音频转录模型转录了100多万小时的YouTube视频,以微调GPT-4。
由于数据采集竞赛带来了一些问题,需要独立各方做出一些努力,使训练数据集公开可用。一些组织,如EleutherAI和Hugging Face,正在创建可供公众用于人工智能开发的大型数据集。
《华尔街日报》最近强调了解决数据采集问题的两种潜在策略:生成数据生成和课程学习。合成数据是使用人工智能模型本身创建的,而课程学习试图以结构化的方式为模型提供高质量的数据,以便它们即使在数据较少的情况下也能建立联系。然而,这两种方法仍处于发展阶段,其疗效尚未得到测试。
相关推荐
2024 年 8 月表现最佳的 2 种加密货币:以太坊 (ETH) 和 MoonTaurus (MNTR)
2024-08-19 16:44
85到2028年,音乐创作者将面临人工智能收入的潜在收入损失
2024-08-21 09:40
54BitBoy预测,如果关键事件一致,XRP将达到52美元,市值为6万亿美元
2024-08-15 15:40
36以太坊:与 Vitalik Buterin 相关的钱包引发看跌情绪
2024-10-01 19:13
209Bonk Coin 或 Bitgert:市场转变前投资者将 Bitgert 视为最佳加密货币购买选择
2024-10-01 12:19
252巴塞尔委员会发布银行加密货币风险暴露的最终披露框架
2024-07-19 14:15
133最新资讯
市场资深人士 Raoul Pal 预测,随着唐纳德·特朗普的胜利,以太坊将重返比特币市场
2024-11-12 14:54
以太坊鲸鱼在 3 年后转移了 1,555 个 ETH
2024-11-12 14:51
孙宇晨抛售 19,000 ETH 后以太坊涨势能否持续
2024-11-12 14:46
ETH 上涨 30% 并创下 ETF 流入纪录后能否创下历史新高?
2024-11-12 14:43
以太坊交易量达到 600 亿美元,创三个月以来最高水平
2024-11-12 14:39
孙宇晨因以太坊上涨获利 6900 万美元
2024-11-12 14:34
以太坊(ETH)在 19.8 亿美元的热潮中流量异常飙升 1,652%
2024-11-12 14:31
MicroStrategy 购买了 27,200 BTC,比特币价格飙升至 82,500 美元以上
2024-11-12 14:18