模拟人声没感情?错,你是没遇到它

经常刷短视频的朋友们都知道,想要看完一整条由模拟人声配音的长视频,简直是比上课还难。平铺直叙又毫无波折的语音,一个不小心就会让人神游外太空。


为什么机械的模拟人声,总是难以抓住我们的注意力?


模拟人声与真人声的差异,

是真的影响我们理解内容


人声的魅力在于它天生就带着情感的温度。


当我们听到一个人在朗读或者说话时,那些自然的语调起伏、强调和停顿,就像是语言的表情,能让我们瞬间抓住重点,明白对方的意图。当一个专业播音员在播报新闻时,Ta的声音会根据新闻的紧急程度、重要性或者情感色彩做出相应的调整,让我们即使闭着眼睛,也能感受到新闻的氛围。


然而,机械音虽然也能模拟出一些语气,但大多时候还是显得比较单一和机械。它缺少那种自然的情感流动,就像是一杯被去掉大部分香气的咖啡,虽然也能喝,但总觉得少了点味道,让人听起来太“平淡”,这自然会影响到我们对内容的理解。


哪怕文案再妙趣横生,在机械音刻板的表达下,也变得无趣了。一些语音助手在读一些复杂的句子时,还可能把重点读错,或者语调太平,更让人一头雾水。


而且,模拟人声还难以如我们一般深刻感知“中文的博大精深”。即使同样的文字,用不同的语调起伏、强调、停顿和节奏变化,也能表达出截然不同的相同的表意。比如……“我谢谢你哦”,可以是真的被帮助后充满感激的道谢,也可以被帮倒忙后的调侃。但大部分模拟人声读出来的谢谢就是谢谢。


此外,语速和节奏也都有差异。人声的语速和节奏是很有讲究的。一个经验丰富的演讲者或者播音员,会根据内容的需要,适时地加快或放慢语速,再加上停顿、强调,一直牵引着听众的注意力。


而机械音往往是匀速的,这种单调的语速很容易让人走神,就像听一首没有旋律的歌曲,很难让人保持专注


图片

有起伏的声音,才更“抓人”


在声音的清晰度和自然度上,大部分模拟人声也仍有欠缺


人声自然流畅,高低起伏间,让听众的注意力也跟着起伏,并不会走神(老师上课念经的情况除外)而机械音就像是一条平坦的高速路,因为太过于平坦,反而让上面开车的人一个不小心……就睡着了。


尤其是在语音合成技术不够成熟的时候,机械音还会显得很机械化、冷冰冰,更让人容易走神。


除了这些不足之处,模拟人声还有一个很关键的问题——太完美了


完美,也是问题?


人声会有呼气声、停顿等等小瑕疵,这些小瑕疵让人声显得更加真实和自然,仿佛是说话者在与听众进行一场真实的交流。而呼气声和停顿也让听众有时间去消化信息,不至于声音在前面跑,脑子在后面追。而这种自然的瑕疵,以及句读间微妙的差异和细节是大部分语音生成技术无法完全模仿的。


当然,不爱听机械音,也有习惯偏好的问题。有些人可能更习惯听人声,觉得人声更有权威性和可信度。就像我们在听专家讲座或者看新闻时,更愿意相信那些由专业人士用自然人声传递的信息。一些人在潜意识里,也更愿意聆听偏向人声的信息传递。


当然,机械音和人声在抓住人的注意力、传递信息上的差异,可不仅仅是我们的个体感受而已,从研究角度来看,两者也确实存在着差异。


在一项对比机械音和人声的研究中就发现,人类沟通者被认为比人工智能沟通者更可信,对参与者的态度影响更大。此外,在传递叙事说服性信息方面,人类沟通者比人工智能沟通者更有说服力。


简而言之就是,人们确实更爱听人说话,也更相信从人的语音中提供的信息。


机械音没法模拟真人?还真不是


说了这么多模拟人声的缺点,难道模拟人声这个技术真就没救了?


当然不是,尽管大部分模拟人声不尽如人意,但也有一些模拟人声技术已经做到了让人如沐春风般的自然。


为啥同样是模拟人声语音,有的还十分僵硬,而华为阅读的自然音色却已经能做到如此浑然天成了?


关键就在于华为阅读的对语音生成技术的深度优化和创新。华为阅读所采用的TTS技术,即Text-to-Speech文字转语音技术,其实并不新鲜,目前市面上的很多个人语音助理、视频配音、有声书制作等等都用到了该项技术。


但想要通过TTS技术呈现出足够自然的语音,语音大模型底座才是关键——它是构建和优化TTS技术的核心基础架构。为了深度还原人类语音的自然感,华为语音大模型深度学习了海量的语音数据,40万+小时的大数据训练,让其得以能形成一套对人类语音的音色、语调、韵律等的精准建模。


而在此基础上,华为阅读又引入了专业配音老师的语音作为提示,进一步优化模型的语音生成能力。虽然模型无法透彻理解文字背后的语意,但通过专业人士的“打底”,也能让它发挥出不同的水平。


在华为阅读“精品女声”音色的音源背后,是中国传媒大学视听技术与智能控制系统文化和旅游部重点实验室研究员、中国传媒大学播音主持艺术学院副教授王宇红。她有近30年的媒体教学和播音经验,可以说将“冷冰冰的文字转变为有情绪的声音”这件事情,已经成为了她的潜意识动作。


在王宇红的朗读中,每一个停顿、重音、节奏都能引领着听者更好地理解内容,沉浸其中。


图片


而在为精品女声录制音源的过程中,王宇红也是非常自然地将自己对于内容与朗读的理解融入到了每一段语音材料中。在一次次自然的停顿、重音和语音、节奏的变化中,她对于文字的理解和感受也随之融入其中,不仅让听者随着她的理解融入其中,也为模型提供了详实的分析和参考样本。


王宇红清晰、标准而富有情感的声音,也让生成的语音能变得更自然、流畅而富有情感。


而这种结合高质量语音样本的方式,使得生成的语音不仅在音色上更加贴近自然人声,在情感表达和流畅性上有了显著提升。让我们在聆听这些由模型生成的语音,也有了“面对面的交谈感”。


通过切换不同风格,精品音色还能自然融入到各种各样的听书场景中:无论是开车时所需的送达感、抗干扰性,还是睡前需要的松弛感、亲切感,精品音色都能为我们带来高度拟人化,而且具有十足共情感的声音,让我们听书的体验感MAX。


当然,华为阅读的自然音色能有如此充沛的情感,并不仅仅是因为采用了优质音源打底,一套能为生成声音额外赋予情绪的技术也相当关键——这就是由中国传媒大学视听技术与智能控制系统文化和旅游部重点实验室所研发的“艺术+技术情感体系”。


模型无法深刻理解情感,但通过这套情感体系,研发人员却可以为生成的语音后天赋予情感。


在研发过程中,研究人员深入分析了智能语音交互中的各种拟态化场景,并将大量精心录制的高质量语音数据输入到了大模型中,并通过人工智能合成技术为机械声音补充了与人声相比所欠缺的情感,如此一来,就能让机械声音也拥有了人性化的温暖。


在华为强大技术能力与中国传媒大学研究成果的多重加持下,生成的语音不仅在音色上更加贴近自然人声,而且在情感表达和流畅性上也有了显著提升。无论是语速的快慢变化,还是语调的起伏转折,都能精准还原人类说话的真实状态,让我们仿佛置身于真实对话之中,极大地提升了听觉体验的舒适度和沉浸感。


自然的阅读,让听书更享受 


而华为阅读将这些精品声音转化为听书音色后,更能使其根据不同场景灵活调整,在情感模型的加持下,精品音色都能随着书籍内容的变化而发挥出不同的演绎效果。无论是听小说、听传记还是听儿童故事它都能提供最适合的声音效果,通过生动的音色,为我们营造出一次次美妙的聆听体验。


图片

多种声音可供选择


在阅读《坏小孩》时,升级精品音色升级能用更加自然的情感去演绎对白,语调起伏间更加贴合文本的情感走向,也能够更精准地传达出角色的情绪变化,让我们听着听着就沉浸到了书中的世界去。


而在《福尔摩斯》这样的悬疑推理类小说中,精品音色也能营造出娓娓道来而引人入胜的故事氛围感,在平稳而富有节奏感的语速中,庞大的世界观缓缓铺陈开来,我们也跟随着讲述进入到一个精彩万分的世界中。朗读中的自然韵律感,能让我们更好地跟随故事的节奏,沉浸在紧张刺激的情节中,而不会因为朗读的突兀而打断阅读与逻辑的连贯性。


当点开《小王子》这样一本儿童睡前读物时,精品音色则变得亲切而温柔,它以柔和的语调和适中的语速进行朗读,不仅能让孩子专注地沉浸在书中内容中,还能激发他们的阅读兴趣,让他们在轻松愉快的氛围中尽情享受读书的乐趣。


在听书出现之前,“看书”是一件很重的事情,似乎非得要大段大段的时间和一个宁静舒适的氛围,才能开启阅读这件大事。


但随着越来越多的人习惯了听书,“阅读”这件事情也变得更加自由了。听书可以随时随地,不受时间和地点的限制,更能让我们任何的碎片时间都能用来“读书”。


图片

随时随地碎片化“读书”


而且,听书和阅读其实是同样有效的,已经有科学研究表明用眼睛阅读和直接听书,在理解和记忆上并没有显著差异。正是因此,现在人们听书的范畴也是越来越广泛了。


从经典文学到现代科技,从历史传记到流行小说,都可以听。而为了满足大家如此多样化的听书需求,华为阅读也是不断更新上架了更多的书籍,尤其在精品书板块中,华为阅读更是直接与众多知名出版机构合作,由专业编辑团队精心挑选出了许多高质量的书籍推荐给我们。即使碎片时间听书,也要听更精品的知识与内容。


图片

更多高质量书籍,满足各个年龄段的需求


除了书籍品类的极大丰富,华为阅读也是充分考虑到我们每个人对于听书的不同需求——有人喜欢听女声,有人喜欢听男声;有人喜欢温柔舒缓的声音,有人喜欢热情洋溢的声音。正是因此,加上华为阅读内备受好评的精品音色,一共有多达8种高品质听书音色可选,从温暖舒缓的女声到沉稳大气的男声,你想要的听书氛围都能轻松营造。



除了满足我们舒舒服服“听”的需求,在满足我们看得舒服,用得舒适上华为阅读也没少花功夫。


光是应用内的功能和设计,华为阅读就细抠到了各种细节,从方方面面提高咱们阅读的舒适感和沉浸感。


图片

随时随地碎片化“读书”


从沉浸式的卡片设计,到精美的插图和视频动态特效,电子书也能拥有实体书的美感。这也让选书时就如同在书店中一本本翻阅般具有仪式感。


为了充分贴合每本书的风格,系统还会根据书籍类型自动适配合适的字体主题背景,用多达17款特色字体,为我们营造出不同的书籍外观和内页。字体与内容风格的贴合,也能让我们能更真实地沉浸到书中那或跌宕起伏,或引人落泪的氛围中去。


图片

字体和主题背景随心换


全新的“一镜到底”阅读模式,更能通过智能排版和背景适配,极大地还原了纸质书的阅读沉浸感。即使手机阅读,也能有阅读纸质书时的沉浸感和专注。


偶尔没空读书,但需要了解书中的内容时,AI概要功能也能帮我们快速概览书中内容。它能自动生成每个章节的故事梗概,让我们快速了解书籍内容,找到想要阅读的部分,大大提升了我们的阅读效率。


AI时代,华为阅读不仅让我们的阅读更有效率,更能舒适、沉浸而充满体验感,更能让阅读快乐。而华为阅读不断升级,也是为我们提供了全方位的阅读支持,让阅读变得更加简单、有趣,也让知识的获取更加轻松自在。



作者:雪梨

封面图来源:图虫

-果壳商业科技传播联合出品-