人工智能训练模型的隐性成本

2024-08-25 13:10

摘要

人工智能培训成本正在飙升，只有少数大公司能够负担得起所需的高质量数据和计算能力

构建和支持现代人工智能模型需要大量投资，可能超过数亿美元。据估计，这些成本在不久的将来可能会达到10亿美元。

这一支出主要是由于使用Nvidia GPU等实体的计算能力，每个GPU的成本约为30000美元，可能需要数千美元才能提高效率。研究人员表示，用于开发此类模型的训练数据集的质量和数量非常重要。

OpenAI的James Betker认为，模型的性能是训练数据的函数，而不是模型的设计或架构。他的断言是，在大数据集上训练的模型将达到相同的结果。因此，数据是人工智能技术进步的关键。

人工智能公司Anthropic AI的首席执行官Dario Amodei在in Good Company播客中分享了他对这些挑战的财务方面的见解。他表示，训练目前的模型，如ChatGPT-4，估计耗资约1亿美元，未来几年训练未来模型可能需要100亿至1000亿美元。

生成性人工智能模型，以及大公司创建的模型，其核心是统计模型。因此，他们使用了很多例子来预测最可能的结果。艾伦人工智能研究所（AI2）的Kyle Lo表示，性能的提高主要归功于数据，尤其是在训练环境保持一致的情况下。

获取高质量数据的高昂成本使人工智能的发展成为发达国家少数大公司的专利。这种资源的聚集也引起了人们对人工智能技术可用性和滥用可能性的担忧。

仅OpenAI就在数据许可证上花费了数亿美元，Meta也考虑过购买数据访问的出版商。人工智能培训数据市场预计将扩大，数据代理可能会从中受益。

问题源于可疑的数据采集实践。据报道，许多公司在未经内容所有者授权的情况下捕获了大量内容，一些公司利用来自不同平台的数据，不向用户支付报酬。正如我们之前报道的那样，OpenAI使用其Whisper音频转录模型转录了100多万小时的YouTube视频，以微调GPT-4。

由于数据采集竞赛带来了一些问题，需要独立各方做出一些努力，使训练数据集公开可用。一些组织，如EleutherAI和Hugging Face，正在创建可供公众用于人工智能开发的大型数据集。

《华尔街日报》最近强调了解决数据采集问题的两种潜在策略：生成数据生成和课程学习。合成数据是使用人工智能模型本身创建的，而课程学习试图以结构化的方式为模型提供高质量的数据，以便它们即使在数据较少的情况下也能建立联系。然而，这两种方法仍处于发展阶段，其疗效尚未得到测试。

声明：本文所述观点并非数字焦点的立场，不构成任何投资活动的邀约或建议。本文仅供参考。投资存在风险，请自行评估。转载需注明来源，违者必究！文章投稿请联系miqianbao@gmail.com