1.中国联通首创大模型能力边界量化基准,定量分析主流语言大模型能力边界。
2.该评估基准包括文本生成、理解、关键信息抽取、逻辑推理、任务规划等5大类能力,细分为27类子能力。
3.研究团队对同一家族8个不同规模的模型进行测试和评估,避免模型架构、训练数据等非模型参数量因素对评估结果产生干扰。
4.根据能力要求确定模型参数量,指导模型落地应用时的参数选型,降低用户选择使用大模型的门槛。
5.未来,中国联通将继续推进模型边界量化机理研究,完善和增强大模型的“记忆-推理-规划-创造-成长-价值观”能力链条。
以上内容由腾讯混元大模型生成,仅供参考
始智AI wisemodel.cn开源社区
动物智能演化规律
构建大模型能力评估基准
语言大模型主要能力
量化主流大模型能力边界
团队设计了专家评估和基于大模型的自动化评估方法,对同一家族8个不同规模的模型(0.5B, 1.8B, 4B, 7B, 14B, 32B, 72B, 110B)进行测试和评估,避免模型架构、训练数据等非模型参数量因素对评估结果产生干扰,得到了不同参数量模型在各种任务上的可靠的评估结果。
依据能力要求确定模型参数量
探索设计模型选型使用“说明书”
中国联通将继续推进模型边界量化机理研究,扩展和深化“模型参数量-模型能力-应用场景”关联关系,协同业界持续扩展模型能力边界,完善和增强大模型的“记忆-推理-规划-创造-成长-价值观”能力链条,打造自主可控、模态丰富、性能先进、高性价比、安全可信的基础大模型,支撑千行百业场景应用,加速大模型普惠化。
编辑丨赵雅鑫
关于wisemodel更多
查看原图 230K