百川发布全链路领域增强金融模型，领先GPT-4o近20%

新京报

2024-12-24 09:52发布于北京新京报官方账号

全文1094字，阅读约需4分钟，帮我划重点

划重点

01百川智能发布全链路增强大模型Baichuan4-Finance，在金融数据基础上实现金融能力和通用能力同步提升。

02该模型在中国人民大学财政金融学院发布的评测体系FLAME以及国内开源金融评测基准FinanceIQ上均登上榜首。

03FLAME评测结果显示，Baichuan4-Finance在银行、保险、基金、证券等多个资格认证领域的准确率均突破了95%。

04为此，百川智能打造了全链路领域增强方案，覆盖高质量数据集构建、模型预训练、微调、强化学习等全流程。

05同时，百川智能在后训练环节做了大量增强工作，如合成数据、指令数据对模型进行有监督的微调，进一步提升模型性能。

以上内容由腾讯混元大模型生成，仅供参考

新京报贝壳财经讯（记者白金蕾）12月23日，百川智能发布全链路增强大模型Baichuan4-Finance（百川智能旗下大模型）。在金融数据的基础上，通过领域自约束训练方案，Baichuan4-Finance实现了金融能力和通用能力同步提升的效果。该模型在中国人民大学财政金融学院新近发布的评测体系FLAME以及国内开源金融评测基准FinanceIQ上均登上榜首。

目前Baichuan4-Finance API已在百川智能官网正式上线。

FLAME由两个方向的评测基准组成。其中，FLAME-Cer主要面向模型的专业金融能力评测，覆盖了CPA（注册会计师考试）、CFA（特许金融分析师）、FRM（金融风险管理师）等14类权威金融资格认证；FLAME-Sce则侧重模型的场景应用能力，包含10个一级核心金融业务场景，21个二级细分金融业务场景，近百个三级金融应用任务。

FLAME-Cer评测结果显示，Baichuan4-Finance在银行、保险、基金、证券等多个资格认证领域的准确率均突破了95%，整体准确率93.62%，领先GPT-4o（Open AI旗下一款大模型）和XuanYuan3-70B-Chat（国内首个开源中文金融大模型），超出GPT-4o近20%。在FLAME-Sce评测中，Baichuan4-Finance一级核心金融业务场景的整体可用率达84.15%，其金融数据计算、金融知识理论等场景的可用率更是超过90%。

中国人民大学财政金融学院FLAME-Cer测评结果。图|受访者供图

此外，在国内主流开源金融评测基准FinanceIQ上Baichuan4-Finance同样超越了GPT-4o和XuanYuan3-70B-Chat，整体准确率达到79.23%，领先GPT-4o近13%。

FinanceIQ测评结果。图|受访者供图

如何让模型在提升专业能力的同时不损失通用能力，是当下大模型落地具体场景最大的阻碍。为解决这一问题，百川智能打造了一套全链路领域增强方案，该方案覆盖了高质量数据集构建、模型预训练、微调、强化学习等从模型研发到场景应用的全流程。

具体而言，Baichuan4-Finance的金融数据集全面且严谨，既包含金融专业教材与学术著作、顶级金融期刊论文、监管机构政策文件、金融法律法规等核心专业金融知识数据，也覆盖了金融专业问答集、企业财报与年度报告、金融类研究分析报告等实践应用类数据，为提升模型金融能力提供了底层支撑。在此基础上，Baichuan4-Finance还在领域自约束训练过程中引入了更高精的通用数据，与金融数据一起进行混合训练，最终实现了模型通用能力不下降，金融能力增长的效果。

此外，百川智能在后训练环节也做了大量增强工作，如：通过合成数据、指令数据对模型进行有监督的微调；在强化学习策略中，针对数学计算等金融领域特别关注的场景进行样本增强等，进一步提升了模型性能。

校对贾宁

查看原图 83K