划重点
01AI技术在播客行业的应用逐渐深入,从策划到剪辑等环节,甚至试图挑战真人主播的地位。
022023年中文播客听众人数为1.17亿,预计2024年将增至1.34亿,播客节目话题涵盖衣食住行到人生哲学等多个领域。
03然而,AI播客在内容创作方面面临独特性挑战,如何打造独一无二的节目成为亟待解决的问题。
04播客节目的情感慰藉与陪伴具有不可替代的重要性,AI主播在现阶段难以取代真人主播的地位。
05未来,随着AI技术的进步,播客行业或许将发生变革,但真人主播的地位仍难以被完全取代。
以上内容由腾讯混元大模型生成,仅供参考
梁晓健 腾讯研究院特约作者
从写作到绘图,从音乐到视频,近几年AI的触角以惊人的速度伸向了各种内容创作领域。播客行业也不例外,AI正在逐渐介入从策划到剪辑等环节,甚至试图挑战真人主播的地位。
今年9月,谷歌的NotebookLM推出了名为“Audio Overview”的功能,[1]该功能可以将用户上传的内容转换为音频对话,由两位AI主播进行讨论,其内容流畅,音质逼真,仿佛真的有两个人在对谈。类似于Midjourney、Stable Diffusion等绘画AI工具横空出世时,人们纷纷讨论画师是否会被取代。NotebookLM带来的问题也没有变化——AI播客会取代真人主播吗?
AI介入播客行业
只有存在应用场景,与之匹配的AI产品才能诞生。AI和播客的结合也遵循这一规律。
在播客的起源地欧美,播客行业早已成为竞争激烈的红海。而在中文世界,播客这两年也迅速摆脱了小众的标签,正逐渐走向主流。
据统计,2023年中文播客的听众人数为1.17亿,2024年预计将增至1.34亿,这意味着每100个互联网用户中将有12人收听播客。到2027年,中文播客听众可能会攀升至1.79亿。[2]
伴随听众规模扩大的是不断增加的播客节目。以播客平台小宇宙为例,该平台2022 年新增了2万个播客、20万个单集,2023 年新增了3万个播客、30万个单集,平均每年新增50%。[3]节目话题从衣食住行到人生哲学,从娱乐八卦到严肃时事,可谓无所不包。
2024年年初,豆瓣正式上线了播客功能,用户可以像使用豆瓣电影和豆瓣读书一样,对播客进行标记和评分,这标志着播客在中文世界的影响力进一步提升。10月底,小宇宙在上海举办了一场线下活动,原计划接待约7000名观众,结果却吸引了近两万人参与,播客在大城市中的吸引力可见一斑。[4]
随着越来越多人习惯以“收听”的方式获取信息,国内社交媒体平台如微信、微博、豆瓣等,也纷纷加大对音频内容的关注与投入。据调查,除了专业的播客平台外,中文播客听众最常使用的三大内容平台分别是 Bilibili、小红书和微信公众号。[5]
虽说只要有一部可以录音的手机,就可以录制播客,但制作一档质量尚可的节目也并不容易,通常需要经过策划、录制、剪辑、发布等多个环节。数据显示,2024年中文播客创作者每期节目平均净工作时长高达12.9小时,其中剪辑环节耗时约4.5小时,占比超过三分之一。[6]
AI工具的出现为创作者带来了新的可能。尤其是调查显示,超过八成的中文播客创作者是以独立运营或与朋友合作为主,近七成的创作者还需身兼主播、剪辑师和运营者等多重角色。[7]
根据JustPod调研,接近一半的创作者表示使用过AI工具辅助创作,另有约四成的创作者虽然尚未尝试,但表示有意愿尝试。不少创作者在调研中提到,AI工具为他们的前期策划和资料收集带来了显著的效率提升。[8]
除此之外,AI也开始介入更为繁杂、耗时更长的剪辑工作。例如,AI工具Descript可以自动将音频转录为文字,自动去除常见口头禅,用户通过删除文字段落就可以直接剪辑对应的音频片段。另一款工具Auphonic则可以自动调整音量、降噪,并自动去除冗余停顿和重复词汇,以提升后期音频质量。
AI也革新了播客的传播端。相较于文本或视频内容,播客在检索方面的复杂性较高。今年,小宇宙平台推出了AI检索服务“问问小宇宙”,用户提问后,该服务能够提供问题的智能化总结摘要,并展现相关播客节目的摘要与笔记,甚至能够精确到具体的时间段,直接生成收听链接。
图:在“问问小宇宙”输入北京后的反馈,可以看到北京的简介以及相关的节目。
图片来源:“问问小宇宙”网站截图
AI主播横空出世
如果说剪辑等AI工具如同得力助手,帮助创作者更高效地制作节目,那横空出世的AIGC(人工智能生成内容)则隐隐展现出取代创作者的潜能。只要提供一些话题,这类前沿的AI播客生成工具便能够独立完成播客节目的创作全过程。
这些工具不仅能够精准提炼关键信息,还能够将原始稿件巧妙拆解并重新编排,模拟真实人物的交流场景,将这些内容转化为流畅自然的口语对话,赋予节目以生动的情感与互动感。
谷歌的NotebookLM就具备这一功能。只要用户提供简单的内容素材,NotebookLM即可自动生成音频节目,其AI主播不仅吐字清晰、声音自然流畅,语调真实,语气词、停顿都相当精准,甚至比很多真人的声音表达还要优秀。除了一般的事实陈述和观点表达, AI主播还会调侃,即兴创作有趣的比喻,表现得非常像真人。
例如,输入一段在北京旅游的文字后,NotebookLM即可根据这段文字生成一段双人对话音频,畅谈在北京旅游的感受,仿佛这两个声音来自真人,并且他们真的来过北京。
图片来源:NotebookLM截图
随着NotebookLM的惊艳亮相,不少科技公司紧随其后推出类似工具。例如Coze平台宣布推出了AI生成播客功能,并支持人声音色替换。可以想象,未来这类工具会越来越多,功能越发齐全。而播客市场日渐扩大,入局者越来越多,这是否会促使内容创作者利用AI以在激烈的竞争中脱颖而出?AI又能否取代真人主播?
AI面临的首要挑战在于独特性,即如何创造出既差异化又个性化的内容。毕竟,AI播客生成工具依赖预设话题自动生成模拟人类对话的音频,对于不同的听众群体,它们往往依赖相同的数据库资源。在工具与数据源相同的情况下,如何打造独一无二的节目成为了亟待解决的问题。尽管某些创作者能够凭借其独特的创意,借助AI创作出别具一格的内容,但这种创新的门槛目前看来相对较低,易于被他人复制,因为其核心在于技术驱动而非个人创意。
鉴于播客制作的初始门槛本就不高,目前市场上节目质量良莠不齐,因此AI播客生成工具确实有机会取代那些内容质量不高的节目。从这个角度看,AI在播客领域的影响与在其他领域颇为相似——它们往往首先冲击的是行业下端的工作,而那些处于腰部或顶端的则较少受到波及。
亚里士多德曾阐述过三种说服技巧,这些技巧恰好映射出三类具有吸引力的内容元素。一是道德说服,即我们因喜爱某人而接受其观点;其次是理性诉求,强调信息须有逻辑且实用;最后是感性诉求,侧重于以情感触动人心。在播客的语境下,这三种策略分别对应着不同类型的节目,它们受AI的影响也各有差异。
道德说服在播客中体现为名人效应,这些本就知名的主播,其节目自然能够吸引大批听众。理性诉求则对应着知识密集型节目,从深奥的学术理论到实用的旅行贴士,都囊括在这一类目中。感性诉求则指向那些引人入胜、激发情绪的节目,只要能够触动听众的心弦,无论是欢笑还是泪水,同情还是愤怒,都称得上成功。
在这三大类别中,知识型播客的听众更为期待获取实用价值的信息。若真人主播提供的信息密度或深度不及AI,便可能在和AI的较量中落于下风。
至于那些因个人魅力而备受喜爱的主播,其地位难以撼动。同样,能够深刻触动听众情感的播客,在现阶段也较难被AI取代,因为真人提供的深层次情感联结,是AI目前难以精准模拟和复制的。就好像关于旅游的播客,听众更能够接受AI主播分享实用的旅游攻略,比如哪些景点值得一去、如何高效安排行程等,但在分享个人旅游感受方面,比如遇到了什么故事,听众很难接受由AI主播来讲述。
不过实际上,播客节目往往是上述三种类型以不同比例交织融合的产物,并非能够简单约化为某一类别。因此,AI的影响也更为多维和复杂。此外,尽管播客作为信息来源的角色不可忽视,但对于广大听众而言,他们并不期望从播客中获取即时性的实用信息,播客所提供的情感慰藉与陪伴也同样具有不可替代的重要性。
真人主播:有心跳的声音
从信息获取的效率来看,视觉无疑更加占据优势。文本可以跳读,视频可以快进,音频尽管可以倍速播放,但通常仅限于1.2倍,一旦超出此范围,收听体验便会大打折扣。鉴于播客节目往往长达一两个小时,即便以1.2倍速播放,仍非短时间内能迅速听完。
这引出了一个问题,在这个碎片化传播盛行的时代,如果听众仅仅是为了快速获取知识或资讯,为什么要收听动辄几十分钟的播客节目?
对于很多听众来说,播客的吸引力并不仅限于获取信息,声音所带来的真实感、陪伴感也同样重要。前者指向的是播客的实用性,后者指向的是情感性。
虽然很多听众会在乎播客的实用性,但这并不包括即时性的实用信息。假设一个人今晚要做一顿西餐宴请朋友,想了解一些菜谱和烹饪技巧,他不太可能会选择收听关于西餐烹饪的播客节目,而是会用搜索引擎或社交媒体。
有研究表示,听众心目中最好的播客节目介于纯粹的闲聊和“听课”之间。[9]这意味着听众是“挑剔”的,他们希望获取有用的信息,但这些信息的密度不能太高又不能太低。实际上,这与播客的收听场景,其往往作为一种背景音存在有着重要联系。
统计数据显示,仅有3%的中文播客听众会全神贯注地收听,而不分心于其他事务。[10]绝大多数听众会在通勤、家务劳动、运动健身等日常活动中同步收听播客,这些场景下,听觉信息的融入几乎不占用额外的注意力空间。经济学家普遍认为,传媒业的本质在于“注意力经济”,即内容创作者通过图像、文字等各种形式的内容,极力吸引受众的注意力,并最大化其关注度。然而创作者必须认识到,相较于视觉信息,听觉信息所占据的注意力层级相对较低。
因此,即便AI主播在信息提供方面胜于真人,也难以取代真人主播的地位。原因在于,听众收听播客的目的并非单纯追求信息获取的高效性。那些对信息效率有极高要求的听众,往往不会选择播客作为信息来源。
一些敏锐的产品开发者可能洞察到了这一矛盾,有的播客节目内容质量高,信息密度大,但收听者的时间可能很紧张。现在有一些大模型应用推出了“AI看播客”的功能,只要提供播客链接,AI即可总结概括节目内容。这种场景下,声音已经完全被剥离,重要的是信息本身。
数据显示,多人聊天、对谈类播客是听众最常收听的类型。[11]有学者表示,“本真”这一词汇在描述播客声音给予听众的印象时常出现,本真性是影响听众对播客评价与互动的核心要素,有的听众甚至可以接受粗糙的录音环境和主播“喷麦”,因为这些“错误”反而体现了人声的真实性。[12]
这是AI最难取代人类的地方。人类内心深处始终相当介意外界是否对自己抱有“真心”。当寻求陪伴之时,我们追求的不仅是陪伴这一行为本身,更看重的是那份愿意陪伴的真诚。这就不难理解,为何人们会反复思量,自己的宠物是否真的喜欢自己?心理医生是否真的能感同身受?毕竟,金钱可以购买宠物或心理咨询服务,但宠物对主人的深情、心理医生对求助者的关怀,却不是金钱所能轻易保证的。听众可以相信真人主播真心在分享其所思所想,但能够相信AI的“真心”吗?
在播客节目中,介绍清楚主播的身份非常重要。听众天然地想要知道听到的声音来自谁,而且某种程度上,同样的内容由不同身份的人讲出来,效果可能大相径庭——胖子笑称自己吃得多是自嘲,其他人说这话则叫人身攻击。几乎所有节目开始录制的时候,主播就会自我介绍,或者在信息页面上详尽展示自己的背景。但AI主播要怎样介绍自己?我们如何得知AI主播的“背景信息”?
据统计,订阅新播客后,绝大多数听众会回听往期节目,且倾向于完整收听,无论是一次性听完还是分多次完成[13]。一定程度上这说明听众与主播建立情感联结后,会基于对主播的认可,进一步收听其其他节目。因此即便AI主播的声音已高度逼近真人,但在现阶段,很难和真人主播一样让人建立情感联结。
回顾前文提及的小宇宙线下活动,若听众长期收听某位真人主播,他们自然会期待在线下活动中见到这位主播,以更全面地了解他。但如果是AI主播呢?我们又该如何“见到”AI主播?线下活动的意义何在?AI主播如何能够像真人一样,实现线上线下的无缝衔接,带给听众那种奇妙的熟悉感?
这很大程度上取决于社会对AI“人性”的接纳程度。目前,大多数人难以对机器或计算机程序产生真正的情感联结。因此,即便AI能够逗人开心或激发同情,也难以达到人与人之间那种深刻的情感共鸣。
当然,AI技术正不断进步,未来人类对AI的感知也将发生变化。或许有一天,人们会像面对真人一样对待AI,到那时,AI主播取代真人主播也将成为自然而然的事情。不过,到那时,AI可能已经在社会生活的更多、更重要的领域取代了真人,播客只是其中一个相对不那么重要的领域而已。
参考文献来源:
[1] Biao Wang,《NotebookLM now lets you listen to a conversation about your sources》
https://blog.google/technology/ai/notebooklm-audio-overviews/,2024
[2] [5] [6] [7] [8] [13] JustPod,《2024中文播客新观察》,2024
[3] [4] 黎诗韵,《对话小宇宙 Kyth:AI 时代,如何重新理解播客的价值》,《极客公园》,2024
[9] [11] [12] 陈卓睿、彭兰,《用时效换本真?——加速社会中的播客聆听与内容生产》,新闻记者,2024
[10] Justpod,《2022 中文播客新观察》,2022