人工智能培训成本正在飙升,只有少数大公司能够负担得起所需的高质量数据和计算能力
构建和支持现代人工智能模型需要大量投资,可能超过数亿美元。据估计,这些成本在不久的将来可能会达到10亿美元。
这一支出主要是由于使用Nvidia GPU等实体的计算能力,每个GPU的成本约为30000美元,可能需要数千美元才能提高效率。研究人员表示,用于开发此类模型的训练数据集的质量和数量非常重要。
OpenAI的James Betker认为,模型的性能是训练数据的函数,而不是模型的设计或架构。他的断言是,在大数据集上训练的模型将达到相同的结果。因此,数据是人工智能技术进步的关键。
人工智能公司Anthropic AI的首席执行官Dario Amodei在in Good Company播客中分享了他对这些挑战的财务方面的见解。他表示,训练目前的模型,如ChatGPT-4,估计耗资约1亿美元,未来几年训练未来模型可能需要100亿至1000亿美元。
生成性人工智能模型,以及大公司创建的模型,其核心是统计模型。因此,他们使用了很多例子来预测最可能的结果。艾伦人工智能研究所(AI2)的Kyle Lo表示,性能的提高主要归功于数据,尤其是在训练环境保持一致的情况下。
获取高质量数据的高昂成本使人工智能的发展成为发达国家少数大公司的专利。这种资源的聚集也引起了人们对人工智能技术可用性和滥用可能性的担忧。
仅OpenAI就在数据许可证上花费了数亿美元,Meta也考虑过购买数据访问的出版商。人工智能培训数据市场预计将扩大,数据代理可能会从中受益。
问题源于可疑的数据采集实践。据报道,许多公司在未经内容所有者授权的情况下捕获了大量内容,一些公司利用来自不同平台的数据,不向用户支付报酬。正如我们之前报道的那样,OpenAI使用其Whisper音频转录模型转录了100多万小时的YouTube视频,以微调GPT-4。
由于数据采集竞赛带来了一些问题,需要独立各方做出一些努力,使训练数据集公开可用。一些组织,如EleutherAI和Hugging Face,正在创建可供公众用于人工智能开发的大型数据集。
《华尔街日报》最近强调了解决数据采集问题的两种潜在策略:生成数据生成和课程学习。合成数据是使用人工智能模型本身创建的,而课程学习试图以结构化的方式为模型提供高质量的数据,以便它们即使在数据较少的情况下也能建立联系。然而,这两种方法仍处于发展阶段,其疗效尚未得到测试。
相关推荐
Immutable宣布关闭Immutable X市场
2024-08-08 01:30
204为什么每轮美联储降息市场都会动荡?
2024-08-16 13:00
131Atari在以太坊二层基础上恢复了经典的“突破”游戏
2024-08-10 12:10
109Sygnum Bank:以太坊 ETF 第一年资产管理规模可能达到 100 亿美元
2024-08-01 17:03
183Blockcast 37–加密资产交易与风险,Coinhako交易主管Kelvin See
2024-08-24 12:40
198随着hodling的增加,中心化交易所的比特币储备创下五年新低
2024-08-14 18:40
112最新资讯
加密货币分析师并认为 2025 年以太坊和比特币将大有潜力
2025-01-19 01:14
ETH 鲸鱼在 2024 年从 XRP 获得 19,000% 收益后
2025-01-19 01:11
以太坊最终会迎来突破吗?以下是分析师的预测
2025-01-19 01:07
以太坊今日价格:特朗普在几分钟内超越了 ETH 的 4 年增长
2025-01-19 01:03
美国以太坊现货 ETF 流入资金达 2390 万美元
2025-01-19 00:59
尽管衍生品交易员大举押注 ETH 上涨,但 ETH 仍然落后
2025-01-19 00:57
山寨币即将腾飞?分析师称“最终淘汰”已结束
2025-01-19 00:53
预计 2025 年比特币将达到 20 万美元:未来市场和政策催化剂
2025-01-19 00:50