百川新模型超4o近20%,首创自约束训练方案突破瓶颈,主打「领域增强」

衡宇 发自 凹非寺

量子位 | 公众号 QbitAI

大模型的竞速赛,正站在通用底座的基础上,掀起“领域增强”风暴。

刚刚就出现了个最直观的例子:金融领域大模型王座,它易主了!

新王是谁?突然出现的全链路金融领域增强大模型Baichuan4-Finance,榜单成绩非常亮眼,专业性和可用性行业第一。

背后的力气和手段,就是领域增强方案。

划个重点,它真的非常值得大家好好琢磨琢磨!因为Baichuan4-Finance是百川智能全链条领域增强方案在金融领域的成果,该方案也可以成功迁移运用在其它领域,比如医疗、教育、法律……一通百通。

而将方案率先在金融领域落地,这就是其背后大模型公司百川智能最直接的实践。

量子位获悉,Baichuan4-Finance之所以能取得这样的成绩,主要原因是其全链路领域增强方案中包括有高质量数据、在模型训练过程中首创了自约束训练方案,在微调阶段也做了大量增强工作。

图片

本着客观和理性的精神,我们还是老规矩,把模型和方案一点点掰开,一起来看——

开闭源Benchmark实测:超GPT-4o近20%

百川公布了一系列Baichuan4-Finance的榜单成绩,整体来看,该模型在金融类开/闭源benchmark上均表现出色。

出色到什么地步呢?

这么说吧,它能当会计、能当交易员、能当精算师,纯纯的金融行业全能大通才。

先来看开源的金融benchmark,FinanceIQ。

简单介绍下,FinanceIQ是金融领域的中文评估数据集,涵盖10个金融大类和36个金融小类,总计7173个单项选择题。它的重点是评估大模型在金融场景下的知识和推理能力。

Baichuan4-Finance位列榜首,整体准确率达79.23%,而GPT-4o是66.25%。

也就是说Baichuan4-Finance领先了GPT-4o约13%。

图片

然后来看闭源的金融benchmark,FLAME。

FLAME(Financial Large-Language Model Assessment and Metrics Evaluation)是人大财政金融学院在本月17日发布的金融评测体系,兼顾专业性和实用性,由两个方向的评测基准组成。

第一个是FLAME-Cer主要面向模型的金融专业能力评测,覆盖了CPA、CFA、FRM等14类权威金融资格认证。

在FLAME-Cer上,Baichuan4-Finance整体准确率93.16%,一举夺魁,超出GPT-4o近20%;在银行、基金、证券等多个资格认证领域,该模型的准确率均突破了95%。

图片

第二个是FLAME-Sce,它侧重模型的场景应用能力,包含10个一级核心金融业务场景,21个二级细分金融业务场景,近百个三级金融应用任务。

FLAME-Sce评测中,Baichuan4-Finance的整体可用率也是行业最高。

其中,一级核心金融业务场景的模型整体可用率达84.15%,金融数据计算、金融知识理论等应用场景的可用率更是超过90%。

图片

从榜单成绩来看,Baichuan4-Finance的精确度和可靠性都在同类模型中脱颖而出,一定程度上表现了其在金融知识领域的深厚积累与专业素养。

但老话说得好,“尽信书不如无书”,咱们也不能拿榜单当唯一的评判标准。

还是得上手看效果(认真脸.jpg)

量子位一连三测,咱们来看:

金融行话解释

Prompt:以下是一个金融行业常用的术语(黑话),请对这个术语进行解释:技术性违约。

Baichuan4-Finance的回答如下图。

图片

GPT-4o的回答如下图。

图片

最直观的感受,Baichuan4-Finance的回答更长更丰富,GPT-4o的回答较为简短。

仔细阅读后不难发现,Baichuan4-Finance不仅详细阐述了名词概念,还从违反合同条款、触发条件、后果、解决方式等多个维度来解释“技术性违约”,辅以功能意义和使用场景,带举例的那种。

逻辑也清晰,有助于读者全面理解这一概念。

GPT-4o内容较为简单,虽然有案例简单例举,但提供的信息量确实比不上前者。

业务应对

Prompt:银行在发现哪些情况时,应将单位银行结算账户的网上银行转账功能关闭,并要求存款人到银行网点柜台办理转账业务?

Baichuan4-Finance的回答如下图,结合了相关《通知》的规定。

更适合中国宝宝体质~

图片

GPT-4o的回答如下。

图片

倒也列举了一些情况,但是没有结合实际条款,比较空泛,也不知是否符合相关规定。

基于财务报表的财务指标提取

Prompt(主要)你是一位专业的财务数据分析师,负责从提供的已知的财务报表中抽取特定信息。你的任务是针对用户提出的问题,从财务报表中提取相关数据。最终问题是“截至2024年3月底,淘宝和天猫集团的调整后EBITA是多少?”

在prompt里,我们附加了输出结果需要遵守的“原则遵循”:

  1. 准确性:严格基于“财务报表”进行信息抽取,确保所有数据的准确无误。

  2. 完整性:如果“财务报表”中包含用户问题所需的所有数据,则提供完整的答案;如果缺少信息,则在相应的字段中留空。

  3. 输出格式:以JSON形式输出抽取的信息,确保易于阅读和理解。

以及这里附上和prompt一起喂过去的财务报表OCR文本。

图片

Baichuan4-Finance的回答如下。

图片

GPT-4o的回答如下。

图片

这一局GPT虽然也给出了准确答案,但带了额外的文字总结;Baichuan4-Finance更符合“以JSON形式输出抽取的信息”这一约束条件。

综合所有测试结果来看(包括没有放进来的一些其它case)Baichuan4-Finance确实不容小觑,且稳定性很强。

行业首创领域自约束训练方案

接下来就是咱们的必问题环节,训出这么强的Baichuan4-Finance,百川是怎么做到的?

百川智能给出的答案是,拿训练阶段的三步走来说话。

哪三步?

训练数据准备——模型post-pretrain——模型微调。

(先预告下,其中的第二阶段含有一个非常妙的首创性策略)

图片

阶段1:训练数据准备

第一阶段训练数据准备,又可细分成数据收集和数据处理两个步骤。

Baichuan4-Finance涵盖的数据集如表格所示,既包含核心专业金融知识数据,也覆盖了实践应用类数据,为提升模型金融能力提供了良好的底层支撑。

图片

而且为了保证模型基础能力,团队特意在训练过程引入了更高精的通用数据混合训练,确保该模型既能理论扎实,又能实践过硬,不会只纸上谈兵。

图片

值得一提的是,在数据收集阶段,百川在金融专家团队的专业指导下,构建了一个全面、严谨、高质量的金融领域训练数据体系。

  • 数据框架设计:由专家团队规划整体数据架构,确保知识体系的完整性和专业性;

  • 高质量数据圈定:依托专家团队的学术洞见,精准定位优质数据源;

  • 专业数据标注:在专家团队指导下进行专业化标注,确保数据质量;

  • 知识体系审核:由专家团队把控知识准确性,验证数据价值。

一整个就是「学术权威背书+体系化知识结构+严格的质量保障」,齐活了。

数据处理这一步,百川采用了智能数据去噪技术、高效数据去重机制、严格数据脱敏等,还建立了一套完整的数据处理体系。

展开来说,首先基于样本可读性、知识密度等多个维度对单个样本进行初步评分;其次,根据不同数据来源的特点,设定差异化的评估维度权重进行二次评分;最后,通过深度学习模型对多维度评分进行回归分析,得出样本的最终质量分。

这个体系不仅确保了训练数据的高质量,更通过创新的评估体系和配比优化系统,很好地支持了模型性能的卓越度。

阶段2:模型post-pretrain

第二阶段,来到了模型post-pretrain。

先敲黑板,在训练行业领域大模型时,业界目前的普遍做法是通用训练语料与领域数据相结合的CPT的训练方式。

这个训练方法可用,但伴随着2个关键挑战。

一是如何确定最优的数据混合比例,包括领域内不同类型数据的配比以及领域数据与通用数据的融合比例;二是如何选择合适的训练策略,在课程学习、固定配比训练以及结合退火实验等方案中找到最佳方案。

在大量实验后,百川发现传统固定配比的直接训练方式存在明显缺陷:随着训练的深入,模型的金融领域能力虽然不断提升,但通用能力却显著下降。

图片

考虑到金融领域包含诸多不同场景,模型的泛化能力至关重要,因此百川为训练过程首提了一种创新性的策略——

领域自约束的训练方案+“loss scaling law + metric scaling law”双重预测推演过程。

以此保证模型通用能力不下降,领域能力提升。

领域自约束的训练方案是啥?一种提升模型垂域泛化能力、又不降低通用能力的训练策略。

这么说吧,在模型CPT过程中,领域知识的直接引入会破坏原有base model的训练分布,因此直接基于领域数据或者混合通用领域这两种方案进行训练,必然会让通用能力下降。

于是,不想破坏通用能力的百川团队就提出了个新的训练方案,称之为“领域自约束”。

具体来说,是在基础领域模型训练过程中构建一个和基础模型同参且参数不更新的“reference model”,来指导模型训练的过程不要跑偏,从而达到「通用能力不降,领域能力稳定增长」的效果

图片

△在小模型上进行领域自约束的推演实验结果

Attention Please!

领域自约束的训练方案,百川从很早之前就一直在研究和迭代。

Baichuan4-Finance只是百川把领域自约束的训练方案运用在金融行业的一个落地案例,这个方案实际上也有泛化性,适配任何一个垂直领域和行业,包括但不限于医疗、教育……

图片

至于“loss scaling law + metric scaling law”双重预测推演过程,来源是酱婶儿的:

百川团队在小参数量模型上了进行多组参数、多组数据配比实验,获取了足够的数据配比到domain loss的曲线样本,从而构建了配比到loss的回归模型。

然后再根据domain loss到自建的通用指标体系和金融知识体系的对应关系,构建了domain loss到模型最终优化目标的回归模型。

通过上述两个模型,团队实现了从参数配比到训练目标以及结果的推演过程,从而达到了动态监控和模拟模型训练趋势。

以下是采用训练预测方案获取的配比数据训练出来的模型,整体效果在通用能力上领先通用base model效果的结果:

图片

在模型post-pretrain过程中,百川团队还完成了多维度测试集合,也就是在每个检查点(checkpoint)进行全方位能力测试。

涵盖了通用知识能力、通用应用能力、金融知识能力、金融应用能力等。

综合起来,这套训练和评估方案,确保了模型在金融专业领域的强劲实力,并且维持了其跨领域的通用性能稳定不变。

阶段3:模型微调

最后的模型微调阶段,主要采用了进行有监督微调(SFT)和强化学习策略(RLHF)

进行SFT,是为了优化模型在特定金融任务上的表现;而RLHF主要是为了进一步提升模型性能。

这里不展开赘述,但严谨起见,还是取RLHF在数学能力上的表现为例

从下图可以看到:

数学增强-PPO版本(Baichuan4-Finance)> 数学增强-SFT版本(Baichuan4-Finance w/o PPO)> 非数学增强-SFT版本(Baichuan4-Finance-Base-SFT)

图片

回头看没做强化时(蓝色曲线),模型Pass@1和pass@5结果的准确率产生了较大的差异化,这样表明模型本身在各个数学能力项上依然有很大的潜力。

做完强化后(橙色曲线),模型在数学方面的能力有了很大的提升,且提升趋势和潜力趋势(蓝色曲线)呈正相关。

因此这表明,强化学习的引入,能让模型在数学这类答案聚焦的问题上性能表现的更好。

全方位提升金融行业价值

在攻克了「通用能力与泛化能力的平衡」这一模型在垂直领域应用的主要难题后,Baichuan4-Finance就能大展身手了,得以在多维度为金融行业实现全面价值的提升增强。

  • 效率优化层面:模型能够智能处理文档审核、客户咨询、产品营销等大量日常工作,显著提升运营效率,释放人力资源。

  • 风控合规方面:依托深厚的金融专业知识和法律法规理解能力,能为机构提供精准的风险识别和合规保障。

  • 客户服务层面:依托模型强大的多轮对话理解和金融专业知识问答能力,通过7*24小时的智能响应和个性化服务,全面提升客户体验与满意度。

  • 决策支持方面:基于模型强大的数据分析能力,能够为管理层提供专业的市场洞察和决策建议,助力机构实现数字化转型和业务创新。

举个Baichuan4-Finance用户的真实栗子

图片

某商业银行信用卡中心,每日需处理数十万通客户咨询,业务高峰期更是忙得不可开交。

基于Baichuan4-Finance搭建智能客服解决方案后,该中心充分利用了模型在金融专业知识和多轮对话方面的优势。

系统可准确理解客户意图自动回答包括账单分期、额度调整、优惠活动、积分兑换等常见业务咨询,并可结合客户实际需求进行精准的产品推荐;而针对复杂问题,模型可进行多轮对话澄清,确保准确理解客户需求。

同时,系统还可基于实时交互场景,结合用户画像,提供个性化的解决方案和产品建议,并在涉及敏感信息时进行智能脱敏处理。

结果就是,现在该中心有7*24小时准确的即时响应,客户等待时间缩短80%,还减少了40%的人工成本,预期可提升30%的产品转化率。

再比如,某保险公司运用Baichuan4-Finance打造智能营销辅助系统,将产品匹配准确率提升了50%;还预计可降低30%的获客成本;通过个性化营销策略,预期可将产品转化率提升40%,实现养老理财产品精准营销。

而且,在所有的实际应用中,由于能时刻在线,多轮对话能力强大,专业知识储备雄厚,为用户提供个性化服务,所有用上了Baichuan4-Finance的机构,以往使用传统人工客服参与环节中可能出现的响应速度慢、服务质量不稳定、专业知识储备不足等痛点,统统被解决。

图片

前面我们提到过,Baichuan4-Finance是百川行业首创领域自约束训练方案在金融这个领域的落地体现。从以上具体效果、数据和口碑反馈可以看出:

这方案有用、好用,首战告捷。

而百川的下一步,必然是以自家基座大模型打底,瞄准各个领域、行业,逐一进行“领域增强”。

与此同时,百川自己的大模型生态体系也在过去的近两年时间内,逐步搭建起来——

已经服务数千家客户,包括北电数智、完美世界游戏、爱奇艺、360集团、生学教育、爱学堂等各行各业的领头羊;合作多家行业生态伙伴,如信雅达、用友、软通动力、新致软件、达观数据、华胜天成等;还携手了中国移动、中国电信、中国联通等运营商

图片

回过头看,Baichuan4-Finance的发布,不仅标志着百川智能技术策略的领先地位、首创方案的实用价值,见证了通用模型泛化到垂直领域的巨大价值。

更预示着,2025年起,大模型的能力,将在更多行业和领域内产生更为深刻长远的渗透和影响。

FLAME GitHub地址:

https://github.com/FLAME-ruc/FLAME/tree/main