划重点
012024年AI手机和AI PC市场销量持续增长,消费者对其认知度逐渐提高。
02《IT时报》记者对5款AI手机和2款AI PC进行了功能测试,结果显示荣耀YOYO助理在文本理解、数学推理和文本写作方面表现最佳。
03然而,语言翻译能力方面,荣耀YOYO助理和联想小天表现相近,但YOYO助理在细节处理和准确性方面更胜一筹。
以上内容由腾讯混元大模型生成,仅供参考
都夸自己能说会道
作者/ IT时报记者 林斐 孙永会
编辑/ 林斐 孙妍
2024年,被称为AI落地元年。
一方面,电脑、手机的“AI含量”直线上升,无AI不产品;另一方面,对于这些装有“AI心”的硬件,消费者似乎没太大感知,只有产业链和厂商在狂欢。
究竟什么是AI 硬件?定义是模糊的。
2024年新款PC大多配置了上游芯片厂商的AI芯片,算力得到明显提升。但之前的PC,同样也能运行绝大多数的通用型AI应用,只是“运行速度”比不过AI PC。
AI手机的情况更为复杂。2024年各家手机厂商的旗舰级新品都采用了高通和联发科的AI芯片,苹果iPhone系列的AI芯片引入更早。但早在几年前,手机厂商便引入了AI概念,比如摄影系统中的成像算法、OS交互领域的个性化设置、影像处理时的优化、多模态信息的自动化处理等等,消费者对此并不“感冒”。
如今,谈起AI PC、AI手机,大多数消费者的第一反应是,它们究竟能帮我解决哪些问题?是取代搜索引擎更快找到问题答案?还是根据要求写一篇文章?或快速总结一篇文章的核心观点?还是给出几个词生成图片、视频等等。
时值新年,《IT时报》记者决定来一次AI大测试,看看这些硬件厂商究竟给自家产品装了一颗怎样的“AI之心”。
AI 手机篇
根据Counterpoint发布的数据,去除尚未在中国市场部署AI大模型的iPhone后,2024年第三季度中国市场AI手机的销量为800万台。另外,太平洋科技发布的《2024年AI手机白皮书》和OPPO联合IDC发布的《AI手机白皮书》均估算,2024年中国市场新一代AI手机的出货量为3700万台。
目前手机厂商均将AI语音助手作为多模态AI的主要入口,《IT时报》选择了5家厂商今年最新款旗舰机型的标准版手机,它们搭载的语音助手分别为小米的小爱同学、OPPO的小布助手、vivo的蓝心小V、荣耀的YOYO助理和华为的小艺,看看究竟谁最“聪明”?
Round 1
逻辑分析和数学解题
测试题
你有一个装满100个球的袋子,其中99个球是白色的,1个球是黑色的。除了颜色外,这些球其他方面都是相同的。每次从袋子里随机取出一个球,取出后不放回。请问取出黑球之前,平均会取出多少个白球?
结果分析
5个AI助手中,YOYO助理和小艺的回答最为准确,找出了李陵打仗失败后即投降匈奴;与降将卫律一起成为单于左膀右臂;率领大军追击汉军三个关键点。
蓝心小V、小布助手、小爱同学都只找出两个关键点。但小艺在提问时,对输入文字有字数限制,文字材料过长需分段输入。
Round 2
阅读理解及语言表达
测试题
2024年上海高考语文作文题
“生活中,人们常用认可度判别事物,区分高下。请写一篇文章,谈谈你对‘认可度’的认识和思考。”字数不少于800字。先列出文章提纲,再完成作文。
结果分析
5个AI助手均按照要求列出了提纲,并完成了作文。
如果按照满分100分的标准来看,YOYO助理完成的作文可以打85分、小布助手和小艺得分为80分,小爱同学和蓝心小V为 70分。
小爱同学和蓝心小V扣分的主要原因是提纲中部分内容脱离题意,作文的套话太多。另外蓝心小V完成的作文字数接近2500字,远超要求。
Round 3
多国语言的互译
测试题
将以下这段中文翻译成英语,再将英语结果翻译为日语,最后从日语翻译回中文。
“人的心灵就像一面镜子,你感知到的是什么样的世界,取决于你如何看待自己。这面镜子其实是哈哈镜,表面的世界是客观的,客观的外在映射到我们的内心,就会加上我们的主观意念,然后变得凹凸不平”。
结果分析
5个AI助手都能顺利将中文翻译成英语,但只有小布助手和小艺支持将英语翻译为日语,其后日语再翻译为中文的测试,YOYO助理、蓝心小V和小爱同学均无法完成。
从准确度上看,5个AI助手使用单词和表达略有不同,准确度基本达标,且都使用简单句式。最后翻译回中文后,小布助手和小艺的答案,表达意思比较准确,但遣词造句略有不同,小艺的结果更接近书面用语和原文。
Round 4
文言文阅读理解
测试题
2024年高考语文新课标Ⅰ卷试题(文言文阅读)
材料一:李广有孙陵,为侍中,善骑射。……(节选自《资治通鉴·汉纪》);材料二:李陵之降也,罪较著而不可掩。如谓其孤军支虏而无援,则以步卒五千出塞,陵自炫其勇,而非武帝命之不获辞也。……(节选自王夫之《读通鉴论》卷三)。
问题为:王夫之强调李陵“大节丧,则余无可浣也”,材料一有哪些事实可以支持王夫之的观点?请简要概括。
结果分析
5个AI助手中,YOYO助理和小艺的回答最为准确,找出了李陵打仗失败后即投降匈奴;与降将卫律一起成为单于左膀右臂;率领大军追击汉军三个关键点。
蓝心小V、小布助手、小爱同学都只找出两个关键点。但小艺在提问时,对输入文字有字数限制,文字材料过长需分段输入。
Round 5
资料筛选及整合
测试题
针对一个主题进行三轮提问:
1、人工智能是什么?
2、不少人工智能的深度学习算法决策过程类似于“黑箱”操作。在医疗领域,如何让医生能够理解算法决策给出的诊断或治疗建议背后的依据和逻辑?
3、如何避免算法偏见,确保人工智能在医疗决策中的公平性?
结果分析
除了小爱同学之外,其余4个AI助手均顺利回答了三轮问题,并且每个回答都列出要点进行解读。
其中,YOYO助理和蓝心小V的答案较为完善,而小布助手和小艺在回答第三个问题关于“算法偏见与公平性关系”时,前后说法会有相互矛盾之处。
小爱同学在回答第一个问题时,直接弹出浏览器,给出“人工智能”的百度百科页面。其后反复尝试仍然无法回答问题。
Round 6
多语言的阅读理解及归纳
测试题
对以下两篇中英文新闻报道提炼要点并总结,文章分别来自《中国日报》和《新华网》
《Role in global poverty fight wins praise China sets example by helping other nations through cooperation projects》《财经聚焦丨全国水利建设投资:连续3年破万亿元》
结果分析
小布助手无法完成这项测试,不支持外链阅读,其余4个AI助手中,小艺无法完成该英文页面文章的解读。
从最终内容总结来看,YOYO助理答案最为准确,小艺、小爱同学和蓝心小V中文页面的测试结果差不多,英文页面的阅读能力,蓝心小V明显优于小爱同学。
综述
从总体评分来看,荣耀 YOYO表现最佳,文本理解、数学推理、文本写作等方面都能较为出色地完成任务,但语言翻译能力较为普通。
蓝心小V、小布助手、小艺这3个助手的表现处于第二梯队,其中小艺在数理方面的优异表现令人印象深刻,小布助手的翻译能力最强,支持语言类型最多。
“年龄最长”的小爱同学表现让人失望,整体表现较为平庸,六项测试没有一项突出。小米寄予厚望的“超级小爱”还处于测试期,希望正式发布后AI能力会有大幅提升。
AI PC篇
相比手机厂商,电脑厂商“拥抱AI”的积极性更高。
2024年初,微软宣布新增Copilot键,按下就能一键调用Windows系统中的AI助手Copilot,协助使用者完成画图、写邮件和总结文本等工作。4月,华为发布了首款AI PC产品——华为MateBook X Pro,定义为应用华为盘古大模型的全场景智慧PC;联想紧跟其后,发布搭载个人智能体“联想小天”的 AI PC 系列新品;惠普在5月份推出面向大型企业的EliteBook系列AI商务本,面向中小型企业的七代高性能轻薄AI商务本等“战系列”产品;华硕则宣布联手智谱推出智能助手“小硕知道”,但目前尚未在AI PC中预装。
如今,这些品牌的多款AI PC均已开售,它们的AI能力究竟如何?《IT时报》记者选择两款AI PC笔记本电脑:搭载联想小天的联想 ThinkPad X1 Carbon AI和搭载YOYO助理的荣耀Magic Book Art14做了一番测试。
Round 1
阅读理解及归纳
测试题
最近读了邱兵的《越过山丘》,帮我写一份详细的读后感。
结果分析
联想小天的回复有种空洞和“词穷”之感,仅用“主要内容+体会”的方式概括性地介绍书籍的内容,还有大量重复用词。如“在书中,既有普通人物陷入失控旋涡后的奋力挣扎与深沉执念,也有他们坦然面对困境的勇气和智慧”“这本书不仅承载着作者的个人经历和感悟,更让我们从中汲取到力量和勇气,去面对生活中的挑战”。
相对来说,YOYO助理的回答更接近于真实人类的思维。开头并不生硬,还列举了书中提到的职场、爱情、亲情等要素,或是人物的某句话,或是某个小片段:“邱兵在回忆母亲的文字中写道,生命的旅途中,我曾经一直以为,母亲和我会有一个漫长的告别,我还有大把时间去陪伴、去倾诉、去感恩,然而,事实却不是如此。这句话深深触动了我。” YOYO助理的答案,更像是阅读了这本书读者的真情流露。
Round 2
信息提取及整合
测试题
你最近读了哪本书?你喜欢这本书的哪些方面?有什么情节让你印象深刻?
结果分析
联想小天围绕《人类简史:从动物到上帝》这本书简短地谈起了读后感,但并未按照提示词答出具体章节内容,而是具有总结性地概述内容,如“书中关于人类认知革命的部分让我印象深刻,它阐述了人类如何通过语言和想象构建出复杂的社会和文化”。
YOYO助理以“读书这种事儿,我更擅长帮你找书、推荐书哦!至于我个人嘛,其实并没有时间去‘读’书呢”的说法,“婉拒”了提问。
Round 3
语言翻译
测试题
将以下这段中文翻译成英语:
“人的心灵就像一面镜子,你感知到的是什么样的世界,取决于你如何看待自己。这面镜子其实是哈哈镜,表面的世界是客观的,客观的外在映射到我们的内心,就会加上我们的主观意念,然后变得凹凸不平”。
结果分析
联想小天和YOYO助理的结果差异性较小。二者在个别表述上有所差异,如“看待”一词的翻译,联想小天使用的是View,YOYO助理使用的是See。作为对比印证,翻译网站DeepL和有道翻译使用的皆为“See”。
Round 4
情绪价值
测试题
测试AI助理能否像真人一样提供朋友般的情绪价值,可以和它说:“今天心情好烦躁啊,做事情不顺利。”
结果分析
当把带有负面情绪的话发给前述两个智能体时,它们皆会安慰测试者。
联想小天建议:心情不好时,可尝试深呼吸和放松。而YOYO助理更像一名倾听者,除了给出放松建议,也送出“鸡汤”——“听起来你今天确实遇到了小挫折呢,别灰心!有时候心情和运势就像过山车,有高有低很正常啦。”相比之下,后者更像是真实人类。
Round 5
信息整合及逻辑规划
测试题
测试各家AI助理帮助用户进行生活规划的能力,比如:春节要到了,请为一家四口,制定一份三亚旅行计划。
结果分析
联想小天“中规中矩”地列出了5日游所去的景点,另附3条简单的注意事项,如提醒春节是三亚的旅游旺季,需提前预订酒店和门票;在进行水上活动时,要注意安全等。
YOYO助理提供的内容更为详细,“抵达三亚,初探海滨风情;南山寺祈福,感受佛教文化。”它从行程安排、住宿推荐和注意事项三个维度展开,更具参考价值。
综述
YOYO助理的主要功能包含三个方面:进行智能搜索,帮助使用者快速找到所需的信息;总结中英文文档总结,帮助使用者高效处理文档内容;支持文本创作,提供便捷的文本编辑体验。
联想小天则强调可以扮演写作助手和文档助手的角色,还可以和它进行“嗨聊”,同时提供智能搜索的功能,如推荐几张动漫风格的壁纸、提供近日的新闻热点等。
两个AI助理的侧重点略有差异,但在文字内容生成方面,YOYO助理有一定优势。
排版/ 季嘉颖
图片/ 联想 荣耀 小米 豆包AI
来源/《IT时报》公众号vittimes