1.度小满推轩辕-FinX1,全球首个金融行业推理大模型,为金融决策提供深入洞察。
2.该模型采用创新“思维链+过程奖励+强化学习”训练范式,显著提升逻辑推理能力。
3.除此之外,轩辕-FinX1在金融评测基准FinanceIQ上表现卓越,超越GPT-4o和开源模型Qwen2.5-72B。
4.同时,模型具有完整的思维链,提升推理可解释性,解决传统大模型的“黑盒”问题。
5.未来,优化版本将持续开源,供用户下载使用。
以上内容由腾讯混元大模型生成,仅供参考
始智AI wisemodel.cn开源社区
在金融评测基准 FinanceIQ 上,初代轩辕-FinX1 展现了卓越的表现。在CPA、银行从业资格、证券从业资格等 10 大类金融权威资格认证中,均超越了 GPT-4o 和开源模型 Qwen2.5-72B,并相较上一版 XuanYuan3 实现了大幅提升。尤其是在精算师这一类别,此前所有大模型得分普遍偏低,而轩辕-FinX1 将分数从 37.5 提升至 65.7,显著体现了其在金融逻辑推理和数学计算方面的强大优势。
当 OpenAI 的 GPT-O1 以卓越的“思考能力”引发行业瞩目时,一个关键命题浮现:如何让这种深度推理能力在金融专业场景中创造实质价值?度小满轩辕 FinX1 给出了创新答案—首次将大模型深度推理能力注入金融领域,从而推动大模型应用从通用场景深入到风控决策等核心业务层面。
在金融行业数智化转型浪潮中,“决策与风控能力”、“研究分析能力”和“数据智能能力”构成了推动业务创新和价值提升的关键维度。这些能力分别通过精准的风险识别与管控、深入的市场研判与价值发现、高效的数据建模与分析,为机构带来持续价值增长。
轩辕 FinX1 通过创新的训练范式,将深度推理能力与金融专业知识深度融合,让这三大能力在具体场景中得到充分释放,为金融行业带来全新的智能化解决方案。
01 决策与风控能力
02 研究分析能力
03 数据智能能力
数据智能能力是金融机构实现精准决策的重要支撑,其核心是高效的数据处理能力和深度的分析能力。轩辕 FinX1可帮助金融机构快速挖掘数据背后的业务逻辑与价值。
例如,将某公司季度财务数据输入轩辕 FinX1,模型能够精准提取核心信息,直观展示资产质量、流动性与业务动态。通过分析“流动性压力”“资产扩张驱动”等关键指标,轩辕 FinX1 在量化比较的基础上补充定性解释,揭示财务数据背后的潜在风险与增长机会,助力企业优化决策。
01 初步构建稳定的思维链生成模型
针对金融领域复杂的决策分析场景,我们构建了具备稳定思维链生成能力的基础模型。首先是高质量COT/Answer的数据合成,先根据问题生成思考过程,再根据问题与思考过程生成最终答案。通过这种策略,模型能够专注于每个阶段的任务,产生更连贯的推理链条和答案。
之后基于XuanYuan3.0模型采用指令微调进行训练,采用统一的思考过程答案输出格式(我们本次也会将粗粒度的思考节点进行公开),同时重点构造了较多的长文本数据来增强模型的长上下文处理能力,使其能够“先生成详细的思考过程,再生成答案”,这为后续的过程监督训练和强化学习优化奠定了坚实基础。
02 金融决策加强的双奖励模型
03 PRM和ORM双引导下的强化学习微调
在强化学习阶段,我们采用PPO算法进行模型优化,将PRM和ORM作为奖励信号。对于和之间的思考过程,使用PRM在每个思考步骤进行打分,及时发现和纠正思考路径中的错误;对于答案部分,则针对不同类型的问题采用不同的评估策略:对有确定答案的金融问题(如风险等级评估)采用规则匹配计算奖励,对开放性问题(如市场分析)则使用ORM进行整体评分。
在训练过程中同时引入了动态KL系数和优势函数归一化等技术来稳定训练过程。这种基于双重奖励的训练机制,不仅克服了单一奖励模型的局限性,也通过稳定的强化学习训练显著提升了模型在金融决策场景下的推理能力。
可以看出,上述路线中的关键是对不同于数学或者逻辑的金融分析类开放问题的思维链数据的构造和奖励模型的评估,目前仍在不断优化和迭代,持续探索更有效的技术路线。
编辑:成蕴年