谷歌DeepMind刚刚投下一枚研究炸弹
在不完全信息博弈领域,多智能体强化学习(MARL)的进步,长期以来都高度依赖人类专家手动去炼丹
但现在,这个极度依赖人类直觉的瓶颈被打破了。
谷歌DeepMind团队利用AlphaEvolve(基于 Gemini 的编码代理,用于设计高级算法),无需手动调整,无需反复试验,无需人类直觉,硬生生从源代码层面进化出了全新的学习算法,一举击败了现有的最优基线算法。
AlphaEvolve 将算法源代码视为基因组:
→ LLM 充当变异引擎
→ 提出语义上有意义的代码变更
→ 在真实游戏基准测试中自动评估适配度
→ 保留优胜者,进一步进化
在11项游戏测试中,VAD-CFR算法有10项超越当前所有顶尖基准模型。
SHOR-PSRO求解器完胜纳什均衡、AlphaRank及PRD等传统解法
paper:
https://arxiv.org/pdf/2602.16928
以下是论文中的一些值得探讨的点:
让大模型当"基因操作员”
传统的机器学习自动化发现,要么局限于超参数优化,要么采用随机语法的遗传编程。而DeepMind这次使用的方法更加硬核——把算法的Python源代码本身当作“基因组”。
整个框架由Gemini大模型作为底层支撑,运行流程非常直接:
首先初始化一个种群,里面装满标准基线算法的源代码(比如标准CFR代码或均匀PSRO代码)。
接着,系统根据适应度选出父代算法,直接把代码喂给大模型,要求它修改代码以降低“可剥削性”(Exploitability,衡量策略漏洞的指标)。
大模型像一个聪明的基因操作员,对代码进行语义级别的变异,重写逻辑、引入新的控制流或注入新的符号操作,生成候选变体。
最后,系统在代理游戏(如库恩扑克)中自动评估这些新代码,表现好的加入种群,循环往复。
通过这种方式,大模型跳出了简单的参数微调,直接在代码逻辑层面发现了人类很难想到的全新机制。团队将这一框架应用在了两大主流不完全信息博弈求解范式上,并取得了惊艳的成果。
突破一:发现VAD-CFR算法,干翻预测CFR+
在迭代遗憾最小化领域,团队开放了累积遗憾和推导当前策略的核心代码逻辑让大模型去进化。
作为种群种子的CFR+算法,经过多代繁衍,最终进化出了一个名为VAD-CFR(波动自适应折扣CFR)的新变体。
在面对Discounted CFR、预测CFR+(PCFR+)乃至最新的DPCFR+等一众顶级基线时,VAD-CFR展现出了极强的统治力,特别是在3人库恩扑克、3人莱杜克扑克和5张牌的各种游戏中,其收敛速度和极低的可剥削性远超对手。
大模型到底在代码里写了什么神奇逻辑?研究人员分析VAD-CFR的源码后,发现了三个极具反直觉的创新机制:
波动自适应折扣: 传统算法(如DCFR)对历史遗憾值采用的是固定折扣因子。而VAD-CFR是动态反应的,它会通过指数加权移动平均线实时追踪瞬时遗憾的“波动率”。当策略处于剧烈动荡期(波动率高)时,算法会自动加大折扣力度,快速遗忘不稳定的历史;当学习趋于稳定时,则保留更多历史进行微调。
非对称瞬时提升: 以前的算法通常对累积历史做非对称处理,而VAD-CFR直接对当前的瞬时更新下手。如果某个动作当前表现很好(瞬时遗憾为正),算法会直接给它乘上1.1的提升因子,实现对有利偏差的即时利用,完全消除了累积带来的滞后感。
硬热启动与遗憾幅度加权: 传统CFR从第一轮就开始平均策略,而VAD-CFR极其果断地实施了“硬热启动”,在第500轮之前绝对不进行策略平均,只在底层默默更新遗憾。一旦开始平均,它不按线性时间加权,而是按瞬时遗憾的幅度加权。这个机制像一个高级过滤器,彻底阻断了早期学习噪声对最终均衡解的污染。
突破二:发现SHOR-PSRO,破解种群训练难题
在针对大型博弈的PSRO算法领域,痛点在于如何平衡探索(扩大游戏图)和利用(微调均衡)。标准PSRO通常使用固定的元求解器(比如一直用Nash或一直用Uniform),很难适应训练中不断变化的经验游戏拓扑结构。
大模型针对PSRO的训练时和评估时元求解器代码进行了进化,最终诞生了SHOR-PSRO(平滑混合乐观遗憾PSRO)。
在极其复杂的6面骗子骰子等多智能体动态环境中,面对PRD、AlphaRank等主流元求解器,SHOR-PSRO展现出了卓越的经验收敛性和极强的算法鲁棒性。
拆解SHOR-PSRO的代码,核心亮点在于它实现了一个完美的动态时间表:
混合融合机制: 在每次求解器内部迭代时,它会将两种策略线性混合:一部分是保证稳定性的乐观遗憾匹配(ORM),另一部分是极具侵略性、倾向于高回报模式的平滑最佳纯策略(受温度参数控制的玻尔兹曼分布)。
动态退火时间表: 混合比例不是固定的。在PSRO的迭代过程中,大模型写出的代码会自动让混合因子从0.3退火到0.05,自动实现了从早期贪婪利用到后期严格寻找均衡的平滑过渡。同时,对收益附加的“多样性奖励”也会随时间衰减,确保早期扩充博弈图,后期精细化收敛。
训练与评估的非对称性: 大模型极其聪明地为训练和评估设计了不同的配置。训练求解器使用动态退火并返回内部迭代的平均策略以确保稳定;而评估求解器则采用固定的极低混合因子,并返回最后一次迭代的策略。这种解耦让算法在训练时安全探索,在评估时又能提供低噪声、高反应速度的结果。
DeepMind的这项研究证明,自动化发现的算法非对称性和动态混合时间表,能够产生人类直觉难以捕捉但极其高效的求解器。未来,博弈论求解器的设计,或许将全面走向人类智慧与AI自动化洞察相融合的新时代
--end--
最后记得⭐️我,每天都在更新:如果觉得文章还不错的话可以点赞转发推荐评论