1.中国电信集团CTO李学龙教授带领团队提出了一种新的探索驱动的大模型对齐方法COPO,提升大型语言模型的性能和安全性。
2.COPO算法通过结合基于计数的探索与直接偏好优化框架,在线性奖励函数近似和离散状态空间中提供理论框架。
3.实验结果显示,COPO算法在AlpacaEval 2.0和MT-Bench基准测试中通过多轮探索和对齐实现性能提升。
4.此外,COPO以8B的模型容量超越了在线DPO、SELM等当前最好的在线对齐方法,提升了大模型在语言任务中的指令跟随能力和泛化能力。
以上内容由腾讯混元大模型生成,仅供参考
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
论文标题:Online Preference Alignment for Language Models via Count-based Exploration 论文地址:https://arxiv.org/abs/2501.12735 开源代码:https://github.com/Baichenjia/COPO
查看原图 140K