OpenAI的研究员Jason Wei(o1思维链核心开发人员)点出了一个关键但容易被忽视的问题:思维链在o1出现前后发生了巨大的变化,虽然只是名称上多了个"o1",但这背后的含义却远不止如此
o1之前:模仿秀,不是真思考
在o1范式出现之前(即思维链提示的早期阶段),思维链的实际运作方式与我们期望的之间存在着很大的差异。我们希望思维链能够反映模型真正的思考过程,但实际上,模型只是在模仿它在预训练数据中看到的推理路径,例如数学作业的解答。
这类数据的最大问题在于,它们是事后诸葛亮式的总结,作者在其他地方完成了所有思考过程后才写下的答案,而不是真正的思维过程记录。因此,这些答案的信息密度往往很低,一个极端的例子就是“答案是5,因为……”,其中“5”这个词承载了几乎所有的新信息量,而前面的铺垫却冗长而低效
o1之后:内心独白,信息量爆炸
o1范式出现后,你会发现思维链看起来与教科书式的数学解答截然不同。这些思维链更像是模型的“内心独白”或“意识流”。你会看到模型进行回溯、修正,它会说“或者,让我们试试……”、“等等,但是……”之类的话,体现了真正的思考和探索过程
Jason Wei虽然没有进行直接的测量,但他敢打赌(心理语言学朋友应该能够证实),o1思维链的信息密度比互联网上的平均文本要均匀得多!这意味着信息在整个推理过程中分布更加均衡,而不是集中在最后的答案上
不知道大家怎么看?这是不是有点玄学了?
Jason Wei说他“打赌o1思维链的信息密度比互联网上的平均文本要均匀得多”,但并没有提供任何数据支持。如果用熵来衡量信息密度的话,这应该是一个很容易测量的事实,只需要比较o1思维链的平均熵和互联网文本的平均熵就可以了。与其“打赌”,不如直接测量来得更科学、更有说服力
关于Jason Wei
⭐星标AI寒武纪,好内容不错过⭐
用你的赞和在看告诉我~