速递|马斯克:我们已经耗尽了AI训练数据

图片

图片来源:Elon Musk

埃隆·马斯克与其他人工智能专家一致认为,训练人工智能模型的真实世界数据几乎没有了。

“我们现在基本上耗尽了人类知识的累积总和……在人工智能训练方面,”马斯克在周三晚间与 Stagwell 主席马克·佩恩的直播对话中说道。“这基本上发生在去年。”

马斯克,拥有人工智能公司 xAI,重申了前 OpenAI 首席科学家伊利亚·苏茨克维尔在 12 月的机器学习会议 NeurIPS 上提到的主题。苏茨克维尔表示,人工智能行业已经达到了他所称的“数据峰值”,并预测缺乏训练数据将迫使模型开发方式发生转变。

确实,马斯克建议合成数据——由 AI 模型自身生成的数据——是前进的道路。“补充[真实世界数据]的唯一方法是使用合成数据,AI 在其中创建[训练数据],”他说。“通过合成数据……[AI]将会在某种程度上自我评分,并经历自我学习的过程。”

其他公司,包括微软、Meta、OpenAI 和 Anthropic 等科技巨头,已经在使用合成数据来训练旗舰 AI 模型。Gartner 估计 2024 年用于 AI 和分析项目的数据中有 60% 是合成生成的。

微软的 Phi-4 于周三早些时候开源,训练时使用了合成数据和真实世界数据。谷歌的 Gemma 模型也是如此。Anthropic 使用了一些合成数据来开发其最强大的系统之一 Claude 3.5 Sonnet。而 Meta 则对其最新的 Llama 系列模型进行了微调 使用 AI 生成的数据。

在合成数据上进行训练还有其他优势,比如节省成本。人工智能初创公司 Writer 声称,其 Palmyra X 004 模型几乎完全使用合成数据开发,开发成本仅为 70 万美元——相比于估计的 460 万美元用于一个同等规模的 OpenAI 模型。

但也有一些缺点。一些研究表明,合成数据可能导致模型崩溃,使得模型在输出时变得不那么“创造性”——而且更加偏见——最终严重影响其功能。因为模型生成合成数据,如果用于训练这些模型的数据存在偏见和局限性,那么它们的输出也会受到类似的影响。
本文翻译自:TechCrunch, https://techcrunch.com/2025/01/08/elon-musk-agrees-that-weve-exhausted-ai-training-data/

编译:ChatGPT

-----------END-----------
🚀 我们正在招募新一期的实习生
🚀 我们正在寻找有创造力的00后创业
关于Z Potentials