继5月6日、6月9日两次发布后,8月15日讯飞星火认知大模型V2.0升级发布会再次如约而至,不仅公布了代码能力和多模态能力升级版本,也带来了搭载升级讯飞星火能力的多项应用和产品。
随着大模型浪潮的演进和讯飞星火的持续迭代,我们对技术、应用、生态的观察和思考也在不断更新。近日,专注前瞻深刻产业研究的智库机构——远川研究所对科大讯飞研究院院长进行专访,探讨了大模型的技术发展、行业应用与边界,以及讯飞研究院的团队搭建和研发路径。
在很多科技TMT投资人眼里,提起合肥,第一时间想到的就是科大讯飞。
讯飞一度是合肥在科技领域精心呵护的“独苗”,而在过去十几年里,合肥又陆续押中面板、存储、新能源等众多战略新兴产业,晋身网红城市。而讯飞也没有辜负合肥的一路扶持,上市之后涨幅超过30倍,成为一家千亿科技巨头。
在1999年成立时,讯飞只有18名员工,现在这个数字已经超过了1.5万,有不少都是年龄不到30岁的研发人员。早晨站在位于合肥蜀山区的讯飞总部门口,摩肩擦踵的年轻人浩荡如潮,他们辛苦忙碌,但脸上和一线城市的那种焦虑有些不同。
不过从“司龄”上来讲,讯飞是一家“老”公司了——其成立已有24年,跟阿里腾讯年龄相仿,比字节美团等要大上一轮,早在2008年讯飞就在深交所挂牌上市,比创业板还要早一年。对于国内大多数科技投资者来说,看讯飞都有一种老熟人的感觉。
但一想到讯飞,很多人的第一印象还是“语音”。从2001年的“半汤会议”开始,科大讯飞就将语音作为公司发展的核心主线。二十多年过去了,讯飞在智能语音领域的地位无人撼动,而将语音技术应用到教育、办公、医疗、客服等领域,给讯飞带来了每年数十亿的产值。
因此当讯飞官宣“星火大模型”时,很多人疑惑:讯飞这是要进军一个新领域吗?
讯飞研究院院长刘聪每次听到这样的问题,总是会心一笑——其实ChatGPT本质上仍然是深度神经网络大模型,而讯飞把深度神经网络应用在语音领域最早可追溯到2010年左右,由此也开始了在认知智能方面的研究,还参与了语音及语言信息处理国家工程研究中心、认知智能全国重点实验室等国家级平台建设。从某种角度上来说,讯飞针对神经网络这一大模型底座技术,已经持续投入了十多年。
刘聪出生于1984年,中科大毕业后就入职讯飞,如今已是管理千人团队的讯飞研究院院长。在2023年世界人工智能大会上,科大讯飞当选国家人工智能大模型标准化专题组的六家联合组长单位之一,刘聪代表讯飞出任组长。
讯飞研究院院长刘聪
在讯飞,承担AI主力研发的团队便是刘聪领导的讯飞研究院。跟国内很多企业不一样的是,讯飞研究院是真正的“AI研发中台”,负责对最难啃的山头进行攻坚,尤其是AI底层技术,而其他团队更偏向于承担应用、产品方向的工作——相应的,“千模大战”的压力也会给到了研究院身上。
在“星火大模型”进度频繁让业界惊讶的背后,是讯飞研究院这一支科技队伍在背后支撑。这些团队经历了长时间的磨合,极少内耗,在攻坚战来临之时,便能够被迅速调动起来。在ChatGPT引爆AI浪潮的这大半年里,团队的成长和成熟速度在刘聪看来超出预期。
刘聪在访谈时谈到,技术层面的比拼是科大讯飞最不惧怕的东西。从最早成就讯飞的863国家计划开始,技术就成为刻在讯飞骨子里的基因,即使在最困难的时候,讯飞也没有削减对技术的投入。用刘聪的话来说:“公司基因决定了当你碰到困难时,你会砍什么,留什么。”
讯飞身处二线城市合肥,在很多方面也更利于“技术信仰”的坚持。相比北上广深,合肥的浮躁浓度明显更淡,焦虑指数更低,这种不一样的画风在应用创新的移动互联网大战中未必有优势,但在底层创新的新一代AI浪潮中,或许会帮助讯飞交上一份不一样的答卷。
外界在等待答卷,讯飞自己也充满渴望。AGI(通用人工智能)的曙光,对长期耕耘语音赛道的讯飞来说,是跃向更高舞台的跳板。我们期待看到在AGI道路上驰骋飞奔的科大讯飞,更期待在这条道路上有越来越多中国科技企业的身影。
以下,是硅基研习社与刘聪院长的对话正文。
用正确的方法做有用的研究
硅基研习社:这轮AI浪潮爆发以来,外界如果对讯飞不是很了解的话,对讯飞的进展速度就会非常惊讶,您对此怎么看?
刘聪:已经习惯了,讯飞成立至今二十多年,很多人对讯飞的第一印象还是一家智能语音公司。在其他方面,我们其实做了很多,只是没有刻意去宣传,更多还是扎根在多做实事上。
例如在AI领域,你想要产品效果好,技术就要做得好,我们路线上叫“顶天立地”。从刚开始语音,拓展到后来的自然语言处理、计算机视觉,外界可能好奇怎么半年讯飞就做出来了星火大模型,大家不知道的是,我们十几年前就已经开始布局。
期间一直在探索AI在认知领域的发展,延展到图像图文以及其它配套的应用,比如安全计算、底座软件平台等。这与研究院的组织定位也相关,整体的研发能力支撑公司各个业务线、各种to B、 to C的软硬件产品。
硅基研习社:讯飞研究院的运行模式有什么独特之处?
刘聪:讯飞研究院的模式,目前在国内可能只有讯飞有。现在不少企业内的研究院,有的与业务结合的紧密度不够,有的则把研究院组织设置在业务部门,后者对团队和技术转向的要求就会很高,不过各种方式各有利弊。
在讯飞,外部所知晓的研究院对内被称为核心研发平台,包含了AI研究院、AI工程院和资源部等组织,承担着整个公司所有业务的AI研发。
这种模式其实很像AI研发的中台,AI研发中台做起来可能很难,但的的确确我们保持着这种模式。而且在我看来,如果不用这种方式,讯飞作为一家AI公司发展下去会很难,因为成本会变得非常大。
在这个基础之上,要同时支持几十个方向,共享就很重要,加上每个业务对同一个技术需求也都不一样,所以我们做事情强调以落地为导向。研究院有一条院训:要用正确的方法做有用的研究。
硅基研习社:与其它互联网大厂和大型AI公司相比,您觉得讯飞的优势有哪些?
刘聪:第一个是基因,讯飞是一家很典型技术起家的公司。在97、98年刘总(科大讯飞创始人刘庆峰)牵头参与的863国家项目中,我们的语音项目在最终结项时得到的评价是“初步可用,具备产业拓展的潜力”。换句话说,当时大家成立讯飞不是一开始就以商业模式为先的,而是站在技术上去提升,进而实现让技术达到可落地应用。
以AI为例,到底是因为这个事情火我要做,还是到了一定体量我不做就不行,亦或是我认为这个事情就是最重要的,我觉得认清这点是关键的。公司基因如何,决定了当碰到一些困难的时候,你会砍什么留什么。
第二个是技术的全面性。大模型研发过程中,我们也是边实践边学习,大家对大模型的第一感觉是很厉害,但后来会发现也存在很多问题,我们有个总结,“大模型不是无所不能,也不是无所不在”,什么意思呢?
首先是要了解大模型能做什么不能做什么,大模型是token by token的生成而不是直接拷贝片段,单靠生成会导致“张冠李戴”,以及新知识难以更新等问题,所以它不可能知道实时的时间、天气、股票信息。所以第一个得知道它目前缺什么,然后我们再通过插件或者其他方式把大模型能力增长上去,这是第一点——不是无所不能。
其次,在有些场景下大模型不见得是最合适的,而且不同的行业,大模型去渗透的节奏可能也不一样。在这个情况下,除了大模型要做得很好,原来其他的技术积累,例如我们在语音领域的语音识别、语音合成,包括我们讲虚拟人,图文理解,有些讯飞已经在单点上做到很领先,大模型下系统性创新会进一步加持。
提到场景再延伸一下,我们讲发挥价值,不仅仅都是应用在从0到1构建的产品里,也有很多是原来产业、产品已经在那里,看看模型方案升级之后能不能把之前的效果提升。在相关领域内与客户、用户打磨很久了,发现大模型出现后,原来想做但只能用其他方式受限做的事,现在大部分可以进行拓展、进行场景升级,从产品价值或者商业模式来说是更快的。所以大模型也不是无所不在。
第三个很重要的就是团队。这与前面两点也是紧密关联的,正是因为有技术的基因,我们才做到了当大家觉得要做语音技术时肯定会选择讯飞。在这个过程当中,我们的很多科学家都经历了摸爬滚打,而且对他们来说,能坐冷板凳也很重要。
有的是技术前几年很快,但后面就平缓了,自己技术方向没突破就会焦虑;也有技术做完但发现到产品应用上出现问题。这些问题我们都经历过,现在好了很多。尤其星火是个典型,集中团队优势。
我们团队既有扎根多年的老员工,也有来自校招的朝气蓬勃的新人们,大家之间紧密配合,没有内耗。有句话说计划产生不了伟大创新,但我认为在目标非常清晰之时,团队按照计划做好分解、齐心攻克也是非常重要的。
所以三点优势,企业基因里对技术的执著、技术发展的全面性、团队凝聚力,这三者组合在一起,我们对AI从技术领先,到更快推动商业化,其实更加有信心。
硅基研习社:您刚刚提到团队,现在很多研究院和大厂都反映中国AI人才以及海外AI科学家都在被疯抢,讯飞在合肥招人以及团队搭建上,有没有一些挑战?
刘聪:这是双面的,合肥有中科大是一个非常好的条件,讯飞整个创始班底,包括我自己也是从科大出来的,合肥目前也有其他很好的高校以及一些新兴人工智能研发机构。可以说,早先人才资源的确以合肥为主。
随着我们研究方向的拓展,以及公司整体技术影响力的持续提升,人才资源所呈现出来的趋势已经不一样了。现在除了合肥,我们的人才也拓展到全国各个城市和顶尖高校,也有来自全球的。同时我们也会结合一些周边的资源,在各地布局研究分院,例如北京、上海、苏州、西安等地,结合当地的研究分院去做人才储备。
但我们不属于特别着急的,也不是一定要拉一个“牛人”过来的思路。我有一个观点,从整个研究院的氛围来说,相对于英雄主义,我们更相信团队主义。
为什么叫双刃剑,为什么说板凳能坐十年冷?人总是趋利避害的,合肥相对来讲大家会更安心一点、科研氛围相对更好,我们也会容忍一些试错。如果你只做那些不容许失败的东西的话,是走不长远的。
另外,讯飞除了做产业,也会主导/参与一些国家级项目,这些项目不是拿着已经做好的东西去申报,而是做一个新的课题。有的项目不是靠一家就能做成的,需要综合各家优势一起做,这过程就与其它校方和师生形成了良性互动。
硅基研习社:所以讯飞人才流动率是比较低的?
刘聪:相对还好,当然会有正常的流动,但我们核心骨干团队非常稳定。
硅基研习社:这轮AI新浪潮下,后期的投入会侧重哪个方向?
刘聪:团队我认为没什么特别缺的,现在团队全是年轻人,真正执行做事的绝大部分都是90后,大家的专业素养和职业精神都很到位。
讯飞研究院技术研究一直遵循“721”的原则,“7”指的是70%技术投入要有力支撑公司战略业务,这是基本盘;“2”指的是20%投入到技术全链路的整合中,系统性孵化新方案新产品,比如最近815讯飞星火大模型发布会上呈现的多模态能力和产品;“1”指的是10%选定前瞻技术方向,由科学家领衔做原创性的基础算法和理论研究。未来我们也会沿着这个原则持续投入。
与AI主方向相关的东西,在团队层面,只要给时间和其它一些资源推动,是很有信心把它们都做出来的。
LLM是认知智能的放大器
硅基研习社:场景和数据是大模型应用很强调的要素,现在有这么一个观点,说这次大模型,对类似于讯飞这类大的科技公司会更加有优势,创业公司反而没有太多优势,对此您怎么看?
刘聪:我的一个理解,首先不能绝对这么说,所谓的有没有优势,其实取决于你做什么事。是做对标GPT4的通用大模型,还是行业大模型,或者是快速做一个创新型爆款的应用,描述起来会因为目标不一样而不同。
我只能讲对于通用大模型,因为它的确投入非常之大,短期很多人做,但会随着时间而分化。国内你要迈向更高的目标,就要有更大的投入,能不能有这个投入,甚至投入了也不一定立刻就能产生商业变现。包括对标GPT3.5,也没大家想得那么容易,不是说稍微测几个东西就超过了。
通用的模型,我个人觉得其实未来在中国不会有那么多。但对我们来讲,从第一天开始做就对标通用人工智能去做。
到行业和应用,这两个站在创业公司的角度出发,它对团队的要求和积累是不一样的。尤其是应用,可能国外一个非常小的团队,像midjourney也就十几个人,对模型参数量的要求也没有很高,但应用端可以做得很不错。
硅基研习社:这种应用层的创新,比如说像在国外一个创业公司,我可能比较放心GPT4或者其它大模型,然后在国内的话感觉这类商业信任是不是比较脆弱?
刘聪:我不好评价其他公司,我只能讲我们自己。我们有“1+N”的布局,1是星火的基础认知大模型,N就是讯飞的既有赛道,例如教育、医疗、办公、工业互联网等。
产业链中有很多东西,我们不会什么都做。所以对我们而言,N就是围绕我们的主业务,如果发现他是有机会通过大模型提升价值的,我就作为重点去做。而且我们也会根据大模型在不同领域发挥价值的速度和程度排个序,判断信息聚焦的方向。
其次就是我们的开放平台,开放平台上有近600项AI能力,有些是单点能力有些是组合能力,在这个基础之上,大模型可能用API或者其它方式进行接入,等相关规定出台,客户就可以在开放平台上进行AI能力的布局。我们既做1又做N,开发者可以基于我1或者N的各项能力去做创新应用。
这里提一下放大器效应,同一个技术通过不同的方式应用赋能不同的产业、产品,并将成效逐级扩散拓展,这就是放大器。不同技术阶段的放大器效应也不同。此前在感知领域,例如通过语音通用算法每一到两年大的更新和演进,保证该技术能够在不同场景和应用领域全面落地实用。
当前,以大模型为代表的认知领域则形成了三级放大器效应。“1”的部分持续演进,在此基础上所做的行业大模型也会不断优化有更好的效果,同时也会带来不同场景、产品以及行业的应用提升,支持多个领域的需求。
所以说“1”的集成,能带来一系列的N在场景上、应用上、插件调动上的能力,过程中放大器会变得更大,这也是为什么站在讯飞的角度,我们必须要做的原因。
硅基研习社:基础模型对应用的创业公司来说还是非常重要的,比如基础模型好不好用,它是不是够先进,是不是对开发者友好,那到后面是否也会演变成一个偏向于赢者通吃的局面?
刘聪:这需要拉长时间看产业格局。在国内从商业角度看,不会是一家通吃,就好比安卓与苹果没有哪家把对方吃掉了,不同底层基建的优势场景和算法肯定会有所区别。
所以我的理解,最后可能是2~3家基础大模型,它本身也是像平台这样成为一个基础设施。真正的通用大模型是一个生态,在这个基础之上又会衍生出一些新的东西。它既能实现自己的产品或者功能,又能与大模型做衔接。
有些行业,会存在某种公有化或者私有化的方式,赢者通吃不是讲把每个行业都做掉了。还有应用,与移动互联网的生态相比,比如打车,他切换成本相对是比较低的,但是大模型它的切换成本,可能是高的。
硅基研习社:前段时间Llama2推出以后,也引起了不少热议,您认为未来开源大模型会怎么影响整个格局?
刘聪:Llama2本身对我们的影响不大,第二版只是基于第一版有优化,很多其它功能尤其是在中文上还有一定差距。
但不能就此说Llama2没有意义。对创业公司而言,肯定希望有开源这个事儿,有更好的基建模型。对原来做大模型的公司,实力不足或者推进节奏较慢的话,就会加速淘汰。
我认为开源和闭源之间,它是一个既有冲突又互相助力的东西,开源变多会逼着闭源干好,不然开源都能超过你了。但我不认为开源来了之后能够改变格局,除非真的有一天,类似GPT4的大模型开源出来了,那就真的会不一样。
从目前来看,毕竟投入太大,暂时不大会发生这个事儿。两者之间互相碰撞找边界,闭源需要证明自己能起到什么作用,哪些方面比开源强,开源也得证明在某些方面不差于闭源了,是互相促进的过程,大概是这个逻辑。
人机协同,知道行业的边界很重要
硅基研习社:我们看到最近一些行业的垂直模型,感觉参数也不需要那么大,还有包括训练还有推理的成本也不需要那么多算力,到某一天这种普世化的进度会不会超过人们的想象?比如说3~5年之内,可能我们每个笔记本电脑里面都能装一个大模型?
刘聪:有可能。这是个层级性的分布,最重的东西肯定不需要那么多。这也是大方向鼓励的,不要重复建设。
其实这又涉及到另外一个问题,就是1和N哪一个更重要?从行业角度看,你要仔细分析一下,它跟大模型有没有什么关系。这时问题就来了,也是我们上面提到的,一是不是无所不能,就是大模型自身的能力,二个是不是无所不在,你得评估一下到底这个行业所关注的那些需求、客户需要解决的问题,大模型对他到底有没有用。
因为有的行业是比较严谨的,不能乱说,有的行业创造性表达是可以的。所以就是说,这要基于行业本身严谨的属性去做判断。有个例子就是医疗,医疗的严谨度就非常高。2017年,我们打造的“智医助理”以456分通过国家执业医师资格考试测试,属于全国考生的中高级水平,我们原先想把它做成辅助三甲医院专科医生的助手,但每个专科很深,智医助理虽然成绩不错但仍达不到最高标准,在有些专科角度可能对医生的帮助有限。
于是我们就从基层医院入手,辅助基层医生进行智能辅诊,现在全国覆盖了30个省、自治区、直辖市,400个区县。在基层病例很少有记录,但你要做的话有一个前提,需要先把电子病历完善起来,目前智医助理协助医生完成规范的电子病历有2.1亿份。
在这基础之上智医助理在后台协助医生做诊断辅助,发现医生的判断跟它不一致时,它就会“跳出”提醒医生,尤其当这个偏差很严重时,现在智医助理已经帮助智能辅助诊断有5.8亿次了。这个机制也已拓展到用药诊断以及诊后管理/住院管理中。
举例来说,尤其涉及老年人的一些疾病,脑中风发病率很高,但住院有时候是因为一些处理不当,例如药可能没有认真吃,饮食不当或者运动恢复不当,脑中风一般来讲需要一个完整的康复计划,一般是三个月,你得告诉他,尤其前面的一两周是最关键的,期间还要监测各方面的指标。医生原来做这个事情肯定至少要花一两个小时,那很显然医生没有这个时间。
我们做的就是结合病患的住院小结、各种检查报告,一键生成康复计划。同时作为产品,它连接医院管理端和用户病患端,做信息记录和异地就诊的联动,包括用药记录、用药提示、健康数值跟踪等。
所以在医药行业,仍是基于行业的标准规划,但是用大模型的拓展能力处理那些数据。有的是让大模型能力往一个点去应用,有的是调用大模型的能力,去做交互、去做知识延伸。
硅基研习社:我们现在通用人工智能包括大模型,它如果说进化成您刚才讲的具备一个专科医生的,比如三甲医院的主任级别这种能力,它还需要什么东西?是语料,还是行业知识图谱等限制?
刘聪:技术、产品和需求之间都是有gap的。首先这个领域做得好和不好要有个定义,这是我一直强调的,讲任何问题之前要有一个定义,而且最好是有一些可以量化的指标。
举个例子,写代码非常好量化,代码生成、代码修正达到什么程度都可以量化。代码还是典型的人机协同场景,包括很多行业都是典型的人机协同。有一个数据,从代码水平来讲,GPT3.5是60多分, GPT4是70多分。我们做过一些验证,模型能力达到60分时,在一些主场景之下就能发挥作用。而且综合来讲,站在人机协同的角度,会提升30%以上的效率。
所以我们得知道,达到什么程度才能开始跨过边界,从60分再进一步到70、80分,可以建立的范围就会越来越大,但这个过程依然需要人去确认。代码能力会在各个场合起到作用,去协调不同侧的人力,对人力结构发生变化。
医疗本质上也是类似的,即使在基层,也都是人机协同。医疗需要非常严谨,其它模型到60分我就能干一些事儿,但医疗到90肯定还不够。所以医疗要分类,不同层面效果不一样,对一些简单问题能达到什么程度,对一些深入甚至跨学科、跨科室的问题各自到什么程度。但不管是什么,人都要确认,只是说人确认需要的投入逐渐变小。
我们总说医生越老越吃香,所以到底哪些东西是基于知识的,哪些是经验的支持,医生学习一个普世化的知识和学习某一个案例的逻辑,在大多数情况是不一样的。
现在医疗这一块,每个案例影响因素太多,它可能稍微多一点点症状就是另外一个情形,所以很多都是经验。医疗领域天生就有一点信息不完备,或者说针对一些特别深入领域的信息不完整的问题。在这种经验之下,你要搞一个特别专业的行业大模型,还是非常有挑战性的,这就不简简单单是一个纯技术问题了。
我们的目标是奔着去成为医生更高级的助手,而不是替代医生。对于互联网医疗,只是解决时空的问题,但1个厉害的医生一天还是只能看30个病人,但如果加入AI,把高端医生的部分资源能建模出来进行普惠,这是有很大的机会,包括过程当中它也会提升各个层次医生的水平,加速科研。
硅基研习社:讯飞在教育耕耘了很久,有很强的积累,您觉得大模型以及未来的通用人工智能技术,在教育这个领域会有哪些发展空间?
刘聪:整体来看,教育是一个受大模型影响增强非常大的行业。
与之前提到行业一样,AI在教育领域也是辅助人类的角色。老师对每个学生都很关心的,但现在事情太多了,要改作业、备课,如果我们把老师这些常规工作基于大模型和其他工具去做提升,让老师可以有更多时间做情感陪伴。我们认为对现在的孩子来讲,这种情感陪伴是更重要的。
面向学生,我们还是延续因材施教、个性化学习的理念,然后找到过程中大模型能够改变哪些东西,例如AI学习诊断、批改、口语考试等,这些都可以让学生有更新的学习模式。以口语对话为例,可以和孩子自由对话,进行语法错误检测等,对孩子来说可能真的就是大半个外教了。
除了学习本身,再往后还有讯飞超脑2030计划,里面有两条线,一是虚拟人,二是实体机器人。我们不是做一个单纯的硬件,肯定要用AI去加强这些硬件的能力,让它们善学习、能理解、能进化,核心就是大模型能力。
个性化在这里也有体现,我们也在做公益性的产品,例如针对青少年抑郁症的防范,就可以做青少年陪伴的产品。引入交互,对青少年心理健康做分析和干预,这类辅导有了大模型加强之后,可以做得更好,这恰恰又是大模型擅长的能力。
硅基研习社:之前讯飞提出过“未来不属于AI,属于掌握AI的新人类”的观点,那么未来3~5年,很多职业本身以及相关职业技能是否会发生很大的变化?
刘聪:不管是大模型还是其它任何AI,只要用统计建模做,不可能做到100%准确。人和AI应该是各自发挥优势,AI也是在各行各业辅助人的角色。我们过去这些年一直讲,到底机器应该怎么样去协同,这件事到现在也是一样,只是说因为大模型带来行业变革会更深化。
未来几年会有变化,带动行业内的组织架构可能也会变化,甚至涉及到整个国家的人才结构、就业结构、教育结构。举个例子,通俗讲大模型中预训练就是“多读书,多做题”,那么问题来了,孩子们对很多知识还要死记硬背吗?孩子未来靠自身思考的能力会不会降低?底座的东西都会发生改变。
不论各个行业怎么看待技能变化的问题,首先我觉得至少不要抗拒它,这次大模型带来的改变是实实在在有干货的,而且未来还有空间,所以不讲拥抱吧,先不要抗拒,要先去了解他。然后不管是什么行业,看一看它对行业的影响有多大,思考可能会有什么助力,通过一些比较简洁的方式用上它。
技术对行业的影响因素很多,国家政策的导向、行业自身的发展周期、人才结构教育结构等。我只能讲技术做到了什么程度,在这个基础之上,事情的发生会有一个过程。
标准制定,是为了更明确的追赶方向
硅基研习社:作为国家大模型标准化专题组的一员,您认为中国大模型创业热潮到一个什么时间节点,会觉得我们站在中美竞争、追赶OpenAI比较成功的一个进度上?
刘聪:之前其实做过一些中美人工智能之间差异的分析,在原创上面我们得承认,很多原始创新,包括AI经典的算法,基本都源于美国,这个是客观情况,当然现在国内也都在奋起直追。
但中国的优势,在于应用,这是个巨大的优势。国外虽然创新没问题,但很多创业公司它推动一些东西时会受阻碍。这个时候我们看到国家的规划,梳理出哪些场景,应该用什么样的AI技术,包括一些政策去推动,这点我认为肯定是更有优势的。
为什么我们要对标,或者先不讲超越,首先要赶上对吧?当然会有不同的观点,说我们可以原始创新,原来大家觉得AGI会有不同的路径,包括脑科学的路径,类脑肯定是一个彻底解决的方式,但那个很难,周期可能要更长,还需要结合材料突破。
这次ChatGPT是把认知智能的天花板突破了,从目前来看,深度学习在尺寸上空间还是有的,只要你训练数据足够好和多、算法足够好,尺寸足够大,效果的上限才能触碰。现在大家比较一致的结论是,大模型不是通用人工智能,但是从当前来看,它让我们看到了通用人工智能的曙光,也是最有可能实现路径的之一。
所以,技术目标是第一位的,如果连通用技术也做不好,就说应用很繁荣,这是不行的,能力是不够的。这也是我们强调要有科学系统的评价体系的原因。
打造科学系统的评价体系,首先题型覆盖要均匀,要有客观题和主观题,有些是结果对但推理过程有误,主观题的评价方式就会复杂一点。第二从应用角度出发,需要有行业相关的问题,让各种行业专家来打分。
为什么要有科学系统的评价体系?第一可以客观了解情况,因为不是讲每哪一家在什么方面都好,有的在这方面强、有的在那方面强,跟语料、行业都有关系,所以客观知道在这个方向的优缺点,知道差距在哪里以后,可以有提升指导,包括后续技术研发的导向和投入的力度,以及优先做什么应用。
硅基研习社:怎么来权衡安全可控与技术发展的关系,现阶段引入监管对国内行业追赶顶级前沿技术会有一些阻碍吗?
刘聪:这是一个系统性的问题,首先引入国家监管肯定是很必要的,那为什么有暂行办法、为什么会征求大家的一些建议,肯定是在整个框架之下去沟通一些更细节、有效的实施方案。
现在已经出现不少用AI进行欺骗的案例,拓展到多模态,图片、视频可能会有更多类似负面事件发生,所以引入安全可控是非常有必要的,过程中我们也是全力配合国家的一些要求。
第二反过来,技术发展跟算法紧密相关。国内刚开始做时很多人只做中文数据训练,甚至不敢用英文,但既然要做AGI,就必须向全世界去学习知识。当然过程中会带来一些不可控的风险,那就通过技术去解决它,不是搞不定就不管不顾了。
还有一个很重要的点是,不是所有的任务都是那么的不可控。代码就很明显,你写代码还会写出什么规则之外的内容?但代码恰恰又是整个IT的基础,我们就需要把代码这块的优势扩大,这个领先不只是测个通过率怎么样,而是考虑在实际的研发场景中,对科研人员、应用人员能起到什么帮助。这次我们815的发布就有代码能力的升级和相关产品推出,大家可以体验一下。
在这个框架之下,国家肯定也会综合考虑这些事情,去最快提升生产力、发挥大模型作用。从长远来讲,针对算法的安全可控是要有的,这也是大模型配套的一环。
硅基研习社:这次大模型对讯飞也打开了一个很大的空间,具体对讯飞的业务和整个战略目标,有什么影响?
刘聪:分两个层面吧,第一个站在技术层面,我们叫集大成者,大模型既是科技创新,也属于系统性复杂工程,把研究院过去这些年在各个方向的积累,真正释放出来了。
第二个就是行业,我们也是通过软硬件结合来探索人工智能商业落地的路径。在to C产品端,它是直接触达用户的,大模型本身也包含触达用户的一种逻辑。To B的各种业务深入,教育、医疗、办公、汽车、金融等等,原来可能客户只是采购技术,但现在他会觉得这个事情很重要,会希望共建平台,在平台之上去融入业务。
但从技术到产业再到商业,其中逻辑都是不一样的。这次是一个以技术为主导的大机会,技术我们很有把握,加上对行业的一些积累,我觉得在商业模式上或者产业上,机会比以前要更大,但的确到商业一环有其他的影响因素,需要边走边看。
硅基研习社:所以你有种使命感?
刘聪:会有。一方面就像之前提到的技术可能给公司带来产业和商业上的成功,当然还有我们整个团队,通过这个事情在过去半年的成长都不可想象。另一方面,是作为人工智能国家队的一员,代表中国参与国际顶尖科研竞争的使命感。
所以,只要有需要,只要时间上能协调,肯定要去冲。