始智AI wisemodel.cn开源社区
Gemma-2-27B-It、Mistral-Large-Instruct-2407、Qwen-2.5-72B-Instruct、Llama-3.1-70B-Instruct
在 DPO 阶段,从同一源模型构建配对样本。正样本由正确且具有最高奖励分数的答案组成,负样本是错误且具有最低奖励分数的答案。为了在优化过程中确保有意义的比较,保持了正负样本对之间的奖励分数差在 0.01 到 0.1 之间。
代码:采用了由正确性分数和奖励分数组成的双评分系统进行代码评估。正确性分数评估代码是否通过了静态分析和测试用例,确保功能的准确性,奖励分数用于偏好评估,衡量回复的质量。
在 SFT 阶段,使用通过所有测试用例且具有最高奖励分数的回复,确保模型在满足正确性和偏好标准的示例代码上进行微调。
在 DPO 阶段,使用通过测试的高分回复作为正样本,使用未通过测试的低分回复作为负样本。目的是优化模型在训练过程中学习代码领域正确偏好的能力。且排除了所有模型回复都未能满足测试标准的实例。
中文:在 SFT 阶段,只使用从 Qwen-2.5-72B-Instruct 采样的回复,因为该模型在中文上经过优化,相较于其他模型具备明显优势。
最终数据集包含 158,784 条样本,其中 94,539 条用于 SFT 阶段,64,245 个偏好对用于 DPO 阶段。数据集的整体构成如下所示。
针对指令微调模型的评估主要集中在模型在指令遵循、自然语言理解、通用问答、推理、数学、代码等方面的性能。对于 FuseChat-3.0 的评估,包含了 14 个基准测试,划分为以下四类:
Wisemodel社区支持直接通过模型镜像创建在线体验,在FusChat-Llama-3.1-8B-instruct模型详情页点击“在线部署-部署在线体验”按钮。
然后选择和确认计费方式,这里选择按量-手动停止的计费方式,大家也可以根据自己的需求选择计费方式。
中山大学语言智能技术团队:长期专注于预训练语言模型和模型压缩等自然语言处理研究方向,在多源异构大模型融合、知识蒸馏和模型压缩等相关方向开展了一系列研究实践,在ACL、WWW、NeurIPS、ICLR、EMNLP、AAAI、PAMI、TKDE等国际知名会议和期刊发表100余项研究成果。负责人权小军现任中山大学计算机学院教授、博士生导师;中国计算机学会杰出会员、自然语言处理专委会委员、大模型论坛执行委员;中国中文信息学会大模型与生成专委会委员、情感计算专委会委员。团队提出了多源异构大模型融合的研究问题,旨在整合不同来源、不同结构大模型的优势,减少重复预训练的昂贵开销,同时为下游任务提供更强的基础模型,基于模型融合的思想开发了FuseLLM和FuseChat 1.0/2.0/3.0系列模型,获得国内外知名研究团队的关注。模型融合核心团队成员包括万凡琦、时天源、杨子逸、钟龙广等。
关于wisemodel更多