通义千问是阿里4月份发布的大模型,很抱歉,我们很晚才展开对它的评测。
目前,对通义千问的网上评测已经很多了,我们不必过多重复造轮子。基本上,它的能力和文心一言、昆仑天工这些是在同一水准上。
比较容易出错的领域,比如逻辑题体系:
逻辑出错。
回答比较混乱
未能完整理解指令
翻译(基于上下文),无法完全理解任务
其实上述错误在其他国产大模型也很常见,但在我们使用通义千问的过程中,遇到上述问题的频率是非常高的。这让我们非常惊讶,也是我们决定多测试一段时间再下结论的原因。
经过一系列测试,我们发现,通过类似预制角色定位这样的加持,通义千问的输出效果要比直接问答要好得多。
基于此,我们的判断是,阿里的大模型路线上,有很多它们原来做NLP的东西,在一体化的通义千问里面表现不佳,可以理解为整体的训练规模还不太够,但在很多细分领域上基于NLP的问答训练,却是做得不错的。
所以,我们猜测,通义千问从产品和应用角度出发,它可能一开始就没想过非要走CHATGPT那种扮演一个无所不知无所不能的AGI的路子;从产品的角度来说,阿里方面希望它能够给出的是对有限应用、特定场景下的最优解。
毕竟,在众多大模型中,通义千问背靠阿里支付宝体系,天然有着最广泛的也能马上接入的应用场景。
最近两天,阿里连续放出的大招,更加是验证了我们上面的猜想。
首先是通义千问已经通过 “/”投入钉钉体系实际使用。
然后,是这两天放出来的通义听悟,这是一个基于大模型的全语音听说能力应用,能听,也是大模型的一种多模态能力。
做个不那么恰当的比喻,就是天赋不怎么行的普通学生,有自知之明,在特定的科目选择下苦功专精,力求最实用的方向出成果。
所以,通义听悟相当于是真正意义的大模型级别下放应用,然后直接对线科大讯飞的星火大模型。
应该说,这玩意本来应该是科大讯飞专精的,语音转写这一块可是讯飞的传统优势,在上个月的发布会上,讯飞把这一块的能力和他的硬件绑定在一块了;门槛显然更高。格局多少偏低。
纯软件语音转写这一块嘛,讯飞一直当是自己的高毛利业务来做,迟迟不愿意接入大模型,算是不想主动去动自己的奶酪。大家可以看下面的价格截图:
那么,现在压力来到讯飞和其他大模型这一边了;显然,基于大模型的通义听悟,其杀手锏能力是不仅能听能转写还能基于大模型语言能力做总结,而且是纯软件的;场景应用方面也是极其接近用户痛点的。
总结一下,我们认为阿里通义千问大模型实际上已经通过行动给出了几个它自己关于应用的答案:
1、大模型的绝对(对话)能力并不那么重要
2、大模型主要看是否具备投入应用的能力,这里面公司的算力储备是大规模应用的前提
3、大模型的应用,在中国还得看前期江湖地位,毕竟流量这一块巨头把得死死的
4、阿里示范了如何把一个不是top1的大模型在应用层补短板
总体来说,6月份,应该就是中国大模型开始进入公测期后期,尝试面向应用试水变现能力的时刻了。阿猫阿狗都得上阵,之后大家就是血拼推广的时刻了。