埃隆·马斯克与其他人工智能专家一致认为,训练人工智能模型的真实世界数据几乎没有了。
“我们现在基本上耗尽了人类知识的累积总和……在人工智能训练方面,”马斯克在周三晚间与 Stagwell 主席马克·佩恩的直播对话中说道。“这基本上发生在去年。”
马斯克,拥有人工智能公司 xAI,重申了前 OpenAI 首席科学家伊利亚·苏茨克维尔在 12 月的机器学习会议 NeurIPS 上提到的主题。苏茨克维尔表示,人工智能行业已经达到了他所称的“数据峰值”,并预测缺乏训练数据将迫使模型开发方式发生转变。
确实,马斯克建议合成数据——由 AI 模型自身生成的数据——是前进的道路。“补充[真实世界数据]的唯一方法是使用合成数据,AI 在其中创建[训练数据],”他说。“通过合成数据……[AI]将会在某种程度上自我评分,并经历自我学习的过程。”
其他公司,包括微软、Meta、OpenAI 和 Anthropic 等科技巨头,已经在使用合成数据来训练旗舰 AI 模型。Gartner 估计 2024 年用于 AI 和分析项目的数据中有 60% 是合成生成的。
微软的 Phi-4 于周三早些时候开源,训练时使用了合成数据和真实世界数据。谷歌的 Gemma 模型也是如此。Anthropic 使用了一些合成数据来开发其最强大的系统之一 Claude 3.5 Sonnet。而 Meta 则对其最新的 Llama 系列模型进行了微调 使用 AI 生成的数据。
在合成数据上进行训练还有其他优势,比如节省成本。人工智能初创公司 Writer 声称,其 Palmyra X 004 模型几乎完全使用合成数据开发,开发成本仅为 70 万美元——相比于估计的 460 万美元用于一个同等规模的 OpenAI 模型。
编译:ChatGPT