科大讯飞旗下的“讯飞听见”作为一款实时语音转写APP,今年亮相于全国两会的记者采访现场,引发网友热议。根据相关报道,这款APP可在5~10分钟内将1小时的语音转写为文字,且识别准确率达95%。
如今,我们的生活中还有很多类似的应用:我们可以很容易地使用Siri、Cortana等语音智能助手查询天气、点歌甚至简单聊天;在不方便接听对方微信语音的情况下,我们还能轻松地进行语音转文字。
根据有关调研报告显示,预计2022年全球智能语音市场规模将突破190亿美元,届时消费者通过智能语音助手的消费总额将占全部消费的18%。
如此庞大的一个市场,各种智能语音应用层出不穷,它们都是什么来头呢?
语音识别是什么黑科技?
支撑这些应用的核心是一种称为语音识别的人工智能技术。语音识别可以帮助人们尽可能地减少界面操作,直接通过日常的言语交流控制机器实现某项功能。
这看似稀松平常的转换过程(声音信号转化成文字乃至语义)实际上是采样、滤波及特征分析等一系列复杂信号处理方法的有机融合,其复杂程度随着日益多样性的应用场景也在不断增长。
根据不同应用场景,开发者们收集成百上千小时的语音数据用于训练语音识别系统,整个训练过程可以类比人类的从小到大的语言理解能力发展
婴儿从诞生一刻起就不断地接受外界声音信息的刺激,大脑根据特定语种的音调变化和发音方式等线索建立神经连接,并形成特定感知模式(神经可塑性)。 一般而言,5-6岁的人类小孩可以进行基本的日常言语交流,后天的学习可以不断扩展他们的语言能力(诸如词汇量、遣词造句等)。
正如人类学习语言的训练过程一样,先进的语音识别算法也是通过数据样本进行多次训练和优化,最终达到与人类相当的言语识别准确率。
识别准确率已超人类
从技术层面上讲,听见APP的语音转写功能主要基于自动语音识别系统(automatic speech recognition, ASR)。ASR的主要目的是将声音信号转换为文本信息。目前流行的ASR模型主要分为两个大类:基于隐马尔可夫模型(hidden Markov model, HMM)的ASR和端到端的ASR。
基于隐马尔可夫模型的ASR主要包括特征提取、声学模型、词法模型(词典)、语言模型和解码模型。该模型先转换声学信号为频率帧,再利用声学模型预测每一帧的音素(phoneme,语言学中的发音最小单元)属性。随后,词法模型、语言模型将对应的音素信息转换为具体的字词,最后解码模型从前面模型推演出的词句组合中搜索概率最大的句子输出为识别结果。
而端到端的ASR则跳过音素的建模,直接从声学信号预测对应的文本信息。整体而言,端到端的ASR模型不依赖词法模型,简化了ASR的建模难度,同时克服传统ASR系统无法准确识别词典外单词的问题。然而,由于其大量应用上下文信息,所以预测速度比隐马尔可夫模型慢。
同时,我们注意到听见APP的语音识别率已经高于95%,这实际上已经超越人类的语音识别准确率(约为95%)。然而,如此卓越的识别性能需要在相对理想的安静环境中才能实现。
在现实生活的很多识别场景,噪声、混响、不同方言、说话人口音、语速及用语习惯等因素都会影响ASR识别准确性。业界一般采用特征预处理、数据增强及模型结构调整等方法改善上述干扰因素对ASR识别率的消极影响。
语音识别的发展历程和应用场景
从语音识别产业发展的关键节点看,自1988年李开复开发第一个基于HMM的ASR系统(Sphinx)开始,该项技术在之后的十多年间得到持续改进优化,但其性能也不可避免地遭遇天花板(识别准确率)。 在这之后,深度学习技术的出现终于打破这种僵局。Hinton在2009年提出使用深度神经网络(DNN)取代HMM模型中的混合高斯模型(GMM),即构建新的声学模型(DNN-HMM),显著提升了当时的音素识别准确率。 紧接着(2011年),微软开始将DNN-HMM应用于大规模语音识别,其语音识别词错率远低于传统GMM-HMM。自此,语音识别开始广泛使用DNN-HMM模型。
随着深度学习算法及硬件算力等不断发展,深度学习逐渐引领人工智能领域的潮流,一些基于深度学习的端到端模型开始崭露头角。
在2015年,Google公司提出一种基于注意力的LAS(listen, attend, and spell)端到端ASR系统。经过不断更新调优,在不考虑解码延迟的情况下,目前LAS在听写任务中的语音识别率已经达到95.9%(超越人类语音识别准确率95%)。
国内主要传统互联网公司也相继推出更复杂的深度学习技术实现端到端融合。 举例而言,阿里巴巴在2018年提出LFR-DFSMN(Lower Frame Rate-Deep Feedforward Sequential Memory Networks),该ASR模型将低帧率算法和上一代DFSMN 算法有机结合,其语音识别准确率相比上一代技术提升20%,解码速度也提升近2倍。
次年,百度提出了流式多级的截断注意力模型 SMLTA,该模型是在 LSTM 和 CTC 的基础上引入了注意力机制来获取更大范围和更有层次的上下文信息。在线语音识别率上,该模型的在线语音识别率比百度上一代 Deep Peak2(2018年推出)模型提升约 15%。
目前国内语音识别的技术框架主要以前端信号处理和后端语音识别为主,前端利用麦克风阵列做去混响、波束形成等信号处理,以让语音更清晰,然后送入后端的语音识别引擎进行识别。
随着人工智能和物联网的发展,语音识别技术进一步融入到产业和个人生活的各个方面,语音识别领域的产业竞争也开始从标准环境下纯粹的研发转为真实场景中的应用体验。
当前的语音识别方案特别是远场语音识别技术能够解决复杂环境下的识别问题,在智能家居(如亚马逊Echo-截止 2017 年销量已经超过千万、小米小爱音箱等产品)、智能客服(如淘宝或银行智能客服)、智能车载(根据语音交互自动导航等)、智能安防(语音解锁等)、在线会议(会议纪要)、在线教育等实际场景中获得了广泛应用。
行业发展趋势如何?
语音识别主要趋于远场化和融合化的方向发展,发挥其真正潜力还需要很长一段时间的技术探索和积累。
尽管当前的语音识别系统能够很好地表述语音信息,50%的电子设备消费人群会尝试选择语音助手搜索内容(网页、歌曲等),但是交互式接口还远非我们所期待的。
并且当前语音识别技术仍然局限于少数产品,其可靠性还有很多难点没有突破。比如多轮语音交互、多人噪杂等场景还有待突破,还有需求较为迫切的人声分离等技术。新的技术应该彻底解决这些问题,让机器听觉远超人类的感知能力。 这不能仅仅只是算法的进步(深度学习算法优化、回声和噪声消除、自然语言处理及多模态融合技术等),需要整个产业链的共同技术升级,包括更为先进的传感器和算力更强的芯片设计。
庆幸的是,当前基于人工智能的ASR发展速度惊人,可以想象在不久的将来,智能家居语音助手无处不在,我们可以通过语音识别应用接口和数字世界进行便捷的交互。此外,诸如Google Home、Apple Siri、Amazon Alex及Microsoft Cortana、小米智能音箱及猎户星空系列智能语音服务机器人等主流语音识别产品可以互通有无。
可以想象一下,你在公司使用iphone手机的Siri助手通过语音告诉在家中的Google Home、Amazon Alex及小米小爱等设备控制一系列智能家居完成自动烹饪、卫生清洁等日常家务。
又或者,你可以在任意的商场通过语音查找具体的停车位置(生活中很多人会忘记自己把车停在商场车库的哪个位置)、预约计程车、查看指定商家的客流情况等。
这些看似科幻的应用场景,有些已经在我们的生活中成为了现实,另一些也在不久的将来会加以实现。让我们共同期待语音识别产业未来在5G技术等的加持下,更加大有可为。