【GET2024】声网钱奋:AI + RTE 驱动教育产品的颠覆式创新机遇

图片

声网教育行业负责人钱奋在GET2024分享

11月11日至12日,芥末堆在北京举办以“新质学习力,通向更美好的教育未来”为主题的GET2024教育科技大会。在11日的领袖论坛上,声网教育行业负责人钱奋就《AI + RTE 驱动教育产品的颠覆式创新机遇》进行了主题分享。

以下为演讲实录,经编辑:

熟悉声网的朋友知道,声网不是一家教育公司,而是一家全球化技术公司,我们为全球的客户提供实时互动的技术方案,满足他们对实时互动的需求。今天想跟大家分享AI+RTE实时互动技术会带来什么改变,特别是对教育行业来说。

今天的演讲分为四个部分:

一、声网介绍

二、生成式AI时代的趋势和发展方向

三、AI+RTE催生教育新机遇

四、声网AI Agent服务平台

一、声网介绍

声网专注于RTE实时互动领域,是该领域的开创者,定义这个赛道的玩法和业务,我们还有首创全球实时互联网SD-RTN™。

作为RTE行业的领导者,声网的市场占有率稳居第一,我们有50多项自主创新专利,全球注册应用数74.2万+,单月支撑通话分钟数700亿+。

图片
声网RTE图谱显示,声网已经覆盖20+行业和200+场景。和教育相关的在线教育的所有场景,包括1对1、小班课、大班课、AI自习室、在线自习室,声网都有覆盖到。

二、生成式 AI 时代的趋势和发展方向 

AI这两年发展非常快,为各行各业带来了很多变化,一些行业甚至受到了较大的冲击。在我们看来,随着AI发展,教育行业是受益较多的行业。生成式AI到来之后,出现了几大趋势:

  • 趋势一:终端的进化将以对大模型的能力支持为核心驱动。大模型对语音、实时图像、自然语言有非常强的理解力,能使终端和交付变得更加自然和流畅。以预订机票为例,传统的方式一步一步操作,但是当手机变成私人助理,人们对手机说订明天去北京的机票,手机就会根据日历和行程,直接推荐航班。

  • 趋势二:所有软件都可以或将会用大模型重新实现。这也是基于大模型本身非常强大的通用力。所有的软件可以依赖于大模型能力,优化场景、功能。举一个例子,目前的一些CRM系统都有这样的能力,可以精准分析所有客户的资料,并且为销售人员提供非常精准的销售策略,从而大大提高销售效率和客户满意度。

  • 趋势三:所有云都需要具备对大模型训练和推理的能力。所有大模型训练和推理能力需要大量的计算资源,云有天生的弹缩能力,企业可以配置一些资源,并不需要购买非常昂贵的实体资源,云会有非常好的数据安全合规能力,甚至还可以对一些AI应用快速回应。

  • 趋势四:人机界面从键盘、鼠标、触屏变成自然语言对话界面(LUI)。大家可以明显感受到,以前在与机器交流的时候,都是通过图形、手机的触摸来实现,现在人机交流可以通过对话式的语音来进行,真正贴近人与人交互的流畅。

在声网看来,生成式AI的发展中OpenAI带来了一定的导向性趋势。今年5月,GPT-4o发布,向前迈了一大步,语音交互支持多语音,意味着实时语音交互是生成式AI未来的趋势方向。今年10月OpenAI发布实时API能力,声网的兄弟公司Agora也参与了这一次发布,OpenAI也官宣与Agora联合提供API能力。

经过对AI的研究,以及与OpenAI的合作,声网目前发现未来生成式AI有两个趋势、两大方向。

第一是大模型多模态能力将会加速到来。大模型具备高度拟人化特征,具备听、说、看、写、绘、思的能力。

第二是RTE成为多模态应用和基础设施的关键部分。对话模式将成为多模态大模型的主要交互形式,包括对话式音频和对话式视频。

RTC技术还有很多优势:

  • 传输延时低:RTC基于智能路由算法,全球网络覆盖,实现毫秒级端到端多媒体传输延迟,对比传统方案秒级延迟,实现量级跨越提升。

  • 支持全双工通信:RTC在低延迟的基础上,通过回声消除能力、VAD能力(语⾳活动检测)可实现实时流畅的语音的双讲功能,使得交互更加自然、流畅。

  • 弱网质量保障:RTC通过弱网对抗算法以及丢包补偿机制,保证媒体传输质量平稳,在极致弱网条件下也能保证通话质量,保障ASR识别率。

  • 音频降噪效果好:RTC具备成熟的降噪、⾃动增益能力和ASR技术可以深度配合,准确过滤背景音,精确识别⼈声,提升语⾳转文字的识别准确率。

  • 高清视频传输:RTC通道在音视频实时传输过程中,对首帧出图、低卡顿、端到端延时指标等均有较高的体验保障,支持多模态信息交互。

三、AI+RTE 催生教育新机遇

图片AI+RTE技术正在催生教育新机遇。多模态大模型与对话式交互结合,等于场景升级。老场景和老案例包括AI助教备课、AI答疑/智能辅导、AI批改、个性化推荐。

我们看到很多AI+教育案例已经落地。AI备课方面,教师通过输入一些知识点,就可以用AI大模型生成教案、讲义,以前备课需要数个小时,现在只需要几分钟。

AI智能辅导有利于学生找到正确答案,也有助于老师给出好的辅导方法。我前两天看到一个家长拿手机拍孩子的作业,拍的时候解题过程就全部显示出来了。此外还有AI作文批改、英语陪练等场景。

图片AI+教育是大家都想得到的结果。通过学生画像、知识点、学生表现、成绩,通过大模型的学情分析,为学生提供学习规划、个性化学习目标、个性化教学内容等等,也是未来教育希望抵达的目的地。

图片同时我们也看到了AI+RTE技术的新场景和新案例,包括AI口语陪练,这与大家理解的陪练不太一样,现在市面上大多数是对讲机模式的沟通和练习,这并不是人与人之间的沟通。如今,AI+RTE已经可以模拟人,实现可以随时打断的AI口语陪练场景,我们已经有客户在提供这样的服务。还有AI助手同声传译和AI在线音乐学习,都需要AI+RTE。

图片与AI和教育相关的还有AI智能监护,也就是通过音视频观察孩子的表现,模拟家长的声音来陪伴宝宝、监护宝宝。还有AI陪伴学习机器人,可以与三至六岁孩子实时互动,提供情感陪伴。

AI讲故事也是客户的案例,以前大家觉得AI讲故事是AI对我讲,或者我对AI讲,而现在的AI讲故事是我讲一半,AI讲一半,我们共创一个故事,让整个场景变得更丰富。

AI+RTE在未来还会有非常多的新场景出现,场景将得到很大的升级。

四、声网 AI Agent 服务平台

基于AI+RTE实时互动场景,声网推出了基于实时互动的AI Agent服务平台。

声网AI Agent是一套云边端一体的PaaS服务,聚焦实时音视频互动场景,结合市场上最优秀的模型能力,充分发挥声网音视频算法及 SD-RTN 的传输优势,助力中小客户快速搭建低延迟、高可用的人机交互应用,适用于泛娱乐、教育、企业协作等多个行业场景。

AI Agent具备四大核心优势,在体验和成本方面进一步优化。

  • 低延迟:通过声网自研语音识别及处理技术,实现更细粒度的语音切割,智能体对话端到端延迟低至500ms,同声传译尾字到尾字延迟<4s。

  • 极致拟真:声网自研AI VAD技术,适应人类对话的停顿、语气和对话节奏,支持AI对话过程中随时打断,深度优化AI角色,最大程度保留情绪情感等关键信息,语音合成音色更逼真。

  • 低成本接入:很多教育公司在研发投入上比较谨慎,这个方案成本可控,客户无需单独部署推拉流服务,简单调用Agent接口,即可将智能体快速集成到客户的实时互动业务中,极大地降低了开发和服务成本。

  • 业务高度灵活:提供20+音视频高级引擎及AI算法积木,客户可根据业务需求,任意拼插,同时支持通用模板和自定义模板配置。

图片这是声网的RTE+AI能力全景图,我们相信未来十年内,能用RTE+AI支持更多的场景,我们也希望更多的教育客户与我们共创场景。

图片这是声网目前合作的全球合作商,我们希望可以成为最受欢迎的实时互动云服务商。

今年是声网成立十周年,我们始终保持初心。我们的愿景是帮助人们跨越距离实时互动,如聚一堂,我们的使命是让实时互动像空气和水一样无处不在。

图片

扫描二维码即可获取演讲嘉宾PPT