讯飞星火4.0 Turbo发布首发多模态视觉和超拟人数字人交互

新民晚报

2024-10-24 17:55发布于上海新民晚报官方账号

图说：科大讯飞董事长刘庆峰发布讯飞星火4.0 Turbo 采访对象供图（下同）

今天，在第七届世界声博会暨2024科大讯飞全球1024开发者节开幕式上，科大讯飞董事长刘庆峰公布讯飞星火大模型应用成绩单，并发布讯飞星火4.0 Turbo：七大核心能力全面超过GPT-4 Turbo，数学和代码能力超越GPT-4o，国内外中英文14项主流测试集中讯飞星火4.0 Turbo实现9项第一。

与此同时，国产超大规模智算平台“飞星二号”正式启动。

国际14项主流测试集9项实现超越，提效50%

讯飞星火大模型4.0 Turbo正式发布，在数学能力、代码能力上超过了GPT-4o。由艾伦人工智能研究所、OpenAI等国内外权威单位发布，涵盖理解和推理、综合考试、数学和科学、代码等不同任务类型的14项主流测试集中，讯飞星火4.0-Turbo在其中9项测试集中实现超越，效率相对提升50%。

刘庆峰特别提到“硬碰硬”的数学能力和代码能力。

根据实用数学任务构建测试集CAppliedMath-1.0，讯飞星火4.0 Turbo在计算、财务、金融、度量等多个维度的任务中均超过GPT-4o水平，已完成超长思维链、树搜索和自我反思评价等算法验证，预计今年底可实现类“o1”的高难度数学能力显著提升。

根据代码生成HumanEval测试集上的效果对比，讯飞星火4.0 Turbo在Python、Java、JavaScript等任务上和GPT-4o的差距微弱，在C++能力上超过GPT-4o。在真实应用场景，基于认知智能全国重点实验室构建的iFLYCode-Eval-2.0代码实用场景测试集，讯飞星火4.0 Turbo在代码生成、代码检错、单元测试等任务上都超过了GPT-4o。同时推出星火代码7B版本，满足代码生成、代码补全等极速响应型任务，效果业界最优。

首发语音视觉虚拟人交互“三合一”

发布会上，科大讯飞重新定义万物智联时代的多模AIUI交互标准，在原有的远场高噪、全双工、多语种多方言能力上，升级了多模态能力，新增了超拟人和个性化能力。

超拟人数字人首次亮相，多模态的交互从超拟人的语音变成超拟人的数字人，实现语音、视频、图文的全部联动的多模态交互。科大讯飞研究院院长刘聪现场和超拟人数字人玩了个“角色扮演”游戏，无论是扮演孙悟空还是小猪佩奇，数字人反应都惟妙惟肖。

多模态视觉能力加持下的人机交互有多惊喜？刘聪现场给超拟人数字人打了个“视频电话”，他不断调整道具“孙悟空”“奥特曼”“怪兽”的摆放位置，无需拍照，超拟人数字人看图说话，马上回应：“奥特曼和孙悟空停止了打斗，正在联合对抗怪兽 ”，和刘聪畅聊不同角度的所见。

刘聪还演示了更实用的旅游购物场景，当摄像头转向印有外文的化妆品及酒类产品时，超拟人数字人能对画面中产品的品牌、功能等信息进行“秒回”，超拟人数字人已成为“跨语言”购物的好帮手。

“目前，讯飞星火支持用户创建自己的个性化数字人，打造每个人的数字分身。”刘聪现场演示了一个自己的“数字分身”，只需在后台进行简单的编辑、定义，就可快速生成自己的卡通形象，更能一句话复刻自己的声音作为发音人，随时随地与自己对话。目前，已支持1300+种人设打造。

首发星火多语言大模型

在语音识别领域，科大讯飞的远场高噪场景语音识别领先优势进一步扩大。

在多语言能力上，首次实现全国地级市方言全覆盖，含全国288个地市、202种方言，讯飞输入法14.0即将支持202种方言免切换自由说。

在多语种能力上，首次发布星火多语言大模型，除中英文外，可支持俄、日、阿、法等8个语种。根据实用任务场景构建测试集MMT-Eval-1.0，讯飞星火在汽车、家电、办公、翻译等行业的任务场景应用效果超过了GPT-4o。

“讯飞作为中国唯一的认知智能全国重点实验室承建单位，我们有使命有责任要做多语言大模型”，刘庆峰表示，讯飞星火底座能力要不断提升，对标全球最好水平，同时还要针对真实应用场景做到全球最好，不断扩大多语种范围，“我们一定要代表中国给世界第二种选择。”

多模态多语言能力升级，将全面赋能汽车产业。科大讯飞还首发了汽车端侧星火大模型，据悉，今年第四季度起，奇瑞、广汽、长城等多款搭载端侧大模型的车型将上市开售。

新民晚报记者郜阳

查看原图 14K

讯飞星火4.0 Turbo发布 首发多模态视觉和超拟人数字人交互

讯飞星火4.0 Turbo发布首发多模态视觉和超拟人数字人交互