交叉学科
Interdisciplinary
香港中文大学(深圳)赵俊华教授、黄建伟教授与叶立新教授团队联合南洋理工大学、耶鲁大学、美国西北大学等机构研究人员,近日在Cell Press细胞出版社交叉学科期刊Nexus发表题为“An LLM agent-based framework for analytical characterization of Nash equilibria”的研究文章。论文提出PrimeNash:一种基于大语言模型(LLM)智能体的框架,通过“生成-评估-证明”的闭环,自动推导闭式(closed-form)Nash均衡并给出机器可检验的证明范式。论文以碳市场竞价博弈为代表性案例,提供透明、可验证的均衡解与情景压力测试,为市场设计与气候政策分析提供可复用的计算求解方案。
研究背景
Nash均衡(Nash equilibrium)是博弈论中应用最广泛的解概念,在经济学、社会科学和工程等众多领域被用于分析多方策略互动的稳定结果。然而,对于高维度、非线性、动态演化的复杂博弈,要推导出解析形式的Nash均衡极具挑战:策略空间维度高、存在递归的跨期依赖,且收益函数可能不连续或非凸,传统人工推导过程往往难以为继。现有求解Nash均衡的方法主要包括解析法、数值法和机器学习法,但各有局限:解析方法依赖不动点定理等数学工具,可提供精确解却难以扩展到复杂博弈;数值方法(如遗传算法、蒙特卡洛模拟)较灵活但缺乏收敛保证且结果难以解释;机器学习方法(强化学习、生成对抗网络、无悔学习等)擅长高维场景但面临超参数敏感、收敛性和可泛化性问题。总的来说,在复杂博弈中获得严谨且可解释的均衡解,需要一种兼具可扩展性和透明度的全新计算范式。
随着大模型技术的发展,大语言模型(LLM)展现出强大的推理和生成能力,为自动化博弈分析带来了契机。研究人员设想通过让LLM充当博弈参与者和解题助手,有望将以往繁琐的均衡推导转化为可复现的自动求解过程。在此背景下,本文的研究团队提出了一种创新性框架,利用LLM智能体协作来解析求解复杂博弈的Nash均衡,旨在突破人工推导的瓶颈,实现高效、严谨的均衡求解与验证。
核心内容
1. PrimeNash整体框架
PrimeNash框架是该团队提出的首个基于LLM智能体的Nash均衡求解系统,可自动推导闭式解析的Nash均衡并生成机器可验证的证明。如图1所示,框架设计上,将均衡求解过程拆解为三个由LLM智能体驱动的核心模块:策略生成模块(Strategy Generation Module, SGM)、策略评估模块(Strategy Evaluation Module, SEM)和均衡证明模块(Equilibrium Proof Module, EPM)。流程从结构化提示词(prompts)出发,描述博弈的玩家集合、策略空间、收益函数与决策规则;SGM先生成候选策略,SEM基于预设指标进行打分筛选,EPM再严格验证其是否满足均衡条件;若验证失败,则将反馈返回前序模块迭代,直至找到可证明的闭式解或达到迭代上限。
图1 PrimeNash模块交互概述框图
2. 策略生成(SGM):多智能体并行探索+工具执行+反思迭代
如图2所示,SGM由多个策略生成智能体(SGAs)并行产生“原始策略(raw strategies)”,智能体数量可随博弈复杂度扩展,以保证对策略空间的多样化探索。为提升生成质量,PrimeNash在生成阶段引入提示增强推理(prompt-augmented reasoning):从预设数据集中检索与该类博弈相关的提示模板,辅助智能体理解博弈结构与关键推导思路;同时允许调用外部工具(如Python库)进行复杂计算,并结合反思(reflection)机制持续修正输出。
图2 策略生成模块(SGM)智能体设计、工作流以及提示增强架构
3. 策略评估(SEM)与均衡证明(EPM):从“看起来对”到“可证明对”
如图3所示,在SEM阶段,系统对候选策略进行评估与排序,评分指标包含其与博弈论文献中典型均衡行为的一致性等;随后,EPM对高排名候选进行严格的均衡条件验证,并输出可检索、可视化的验证结果与形式化证明,以增强可解释性与可审计性;若证明失败,系统将失败信息逐级反馈给SEM与SGM,触发新一轮候选生成与筛选。
图3 策略评估(SEM)和均衡证明(EPM)模块架构
4. 从“测”到“控”:把减排嵌入日常运营的闭环示例
如表1所示,论文用7个经典博弈问题系统评估PrimeNash能力,覆盖不同的动态特征、信息结构与均衡类型。实验结果显示:PrimeNash在这些测试中求解了所有静态博弈,并在“成功定义为得到符号闭式解且通过自动均衡校验”的标准下,求解了70%的动态博弈。
此外,如图4所示,论文以双寡头Stackelberg博弈为例,展示框架如何通过标准化提示词把玩家、行动、收益与规则转化为机器可处理的格式,并生成均衡表达式、求解步骤与对应Python代码。
表1 典型博弈问题求解汇总
图4 双寡头Stackelberg博弈求解架构
5. 碳市场动态博弈:闭式解+现实行为复现+政策参数洞见
论文进一步以碳市场为代表性复杂动态博弈,展示PrimeNash如何推导闭式均衡并进行市场机制分析。研究将碳配额交易刻画为包含四个离散交易期对应一年四个季度的动态博弈:企业在每期同时做出交易相关决策,并用线性净需求函数刻画交易量与价格的关系;通过逆向归纳(backward induction)从末期向前求解,确保子博弈层面的均衡一致性。在该案例中,PrimeNash产出了此前缺少闭式刻画的碳市场模型的首个解析解,并强调该闭式解已在EPM中作为子博弈精炼Nash均衡(subgame-perfect Nash equilibrium)被严格证明。
如图5所示,基于均衡结果,论文给出对市场波动与监管设计的定量洞见:在履约期末,价格与交易量会出现显著异常波动;模拟中均衡碳价在第1–3期保持较低水平(18.65 CNY/t),并在第4期显著跃升至74.71 CNY/t,呈现与现实市场一致的方向性与时序特征。论文据此提出可考虑的监管措施,包括强化对临近截止期交易的监管、提高监管透明度、以及通过配额投放策略抑制投机并稳定价格。此外,论文讨论了大型国有企业(large SOEs)在市场中的影响力,以及将R value作为稳定市场的政策杠杆:R value反映企业跨期转移配额使用的激励,综合了对未来价格变化的预期与跨期转移成本;当R value偏高(跨期成本低)时,企业更倾向于推迟卖出/使用配额以博取未来升值,从而压缩当期供给并推高价格;当R value偏低(跨期成本高)时,企业更倾向于更早卖出/使用配额,提高流动性并缓解价格压力。
图5 碳市场博弈问题的动态均衡特征
论文总结
PrimeNash是论文提出的LLM智能体框架,采用“策略生成—收益评估—均衡证明”的模块化闭环,把闭式Nash均衡推导从手工工作转化为可复现、可审计的计算流程;其通过多智能体推理、符号代码执行与形式化验证,能够处理高维策略、跨期递归以及不连续、非凸收益等难题,并在七类经典模型中实现对静态博弈的全面求解与对动态博弈的高比例成功求解。在碳市场竞价博弈案例中,PrimeNash不仅给出可证明的闭式均衡解,还能复现履约期末波动等关键现象,并进一步将R value等机制参数与市场稳定性建立可解释的联系,为市场设计与气候政策分析提供透明、可检验的量化工具。
研究团队介绍
论文第一作者为南洋理工大学柳文轩博士,香港中文大学(深圳)赵俊华教授为本文的通讯作者,南洋理工大学周茜缘、悉尼大学王馨蕾和香港中文大学(深圳)程裕恒是本文共同第一作者,香港中文大学(深圳)黄建伟教授是本文共同通讯作者。本文其它合作者包括香港中文大学(深圳)叶立新教授、美国西北大学Randall Berry教授及耶鲁大学Leandros Tassiulas教授。
赵俊华教授领衔的人工智能-能源-经济交叉学科创新团队致力于解决大模型智能体算法、能源系统、电力市场、碳市场领域的前沿基础性科学问题和关键技术,旨在通过学科交叉实现从主体到系统层面的整体解决方案,推动相关领域取得突破性进展。近年来在Joule、Nature Communications、Scientific Data、Nexus等国际期刊上发表系列多学科交叉论文。