观·察
萨顿大概也未曾预料到,拯救强化学习声誉的,竟然会是一股来自东方的力量。DeepSeek的训练与运行成本远低于同类模型,性价比之高被许多观察者称为“不可思议”,这是因为它在训练过程中大量应用了强化学习。
——陈永伟
图片来源:东方IC
2025年图灵奖:强化学习的前世今生
观·察
萨顿大概也未曾预料到,拯救强化学习声誉的,竟然会是一股来自东方的力量。DeepSeek的训练与运行成本远低于同类模型,性价比之高被许多观察者称为“不可思议”,这是因为它在训练过程中大量应用了强化学习。
——陈永伟
图片来源:东方IC
2025年图灵奖:强化学习的前世今生