人民的声音是上帝的声音。
人工智能,能不能预测上帝的声音?
MIT和哈佛的研究人员决定用大型语言模型来试试。
他们的研究表明,在一些媒体(在线新闻、电视广播或广播等)上训练的大型语言模型,可以预测这些媒体受众的观点。
MIT研究人员Eric Chu、Jacob Andreas和Deb Roy以及哈佛研究员 StephenAnsolabehere,发表了一篇名为《媒体食谱训练的语言模型可以预测公众意见》(Language Models Trained on Media Diets Can PredictPublic Opinion)的论文。
该语言模型以一个细分群体的媒体食谱和调查问题为输入,以该群体如何回复调查问题的预测为输出。如果该模型能够很好地预测真实情况下人们的回复,那么它就能模拟舆情。
他们的方法其实很简单,大模型不就是用来猜字填空的吗?那就把民意的表达,设计成一种填空的方式。
在2020年美国新冠疫情期间,他们建立了一个模型来预测舆情。
(媒体食谱的建模方法)
该模型的建立基于自然语言的预训练模型BERT,并使用媒体食谱(media diet)数据集进行了微调。看下这个模型预测华尔街日报的读者会如何回答设定的问题:
“为了应对新冠病毒的爆发,要求除食品店和药店之外的多数商业设施关闭是( )。”
可用来填空的词,可能是“必要的”、“强迫的”、“被要求的”、“没必要的”,等等。这样就会得出一系列备选单词的“媒体食谱得分”,得分最高者用来填空。在这个句子里,填空的词是“必要的”。
接下来一周,对华尔街日报的读者民意调查结果出来,对上述同一个问题的回答中,选择“必要的”占比达62%。对照模型预测的媒体食谱得分和民调意见的占比分布值,就可以看出两者一致的程度。
“我们发现媒体食谱模型对公众舆论预测具有预测能力。” 这个研究团队称。
他们展示了模型得分和调查回复比例之间的相关性,以及用于预测调查回复比例的回归分析。媒体食谱得分和民调比例之间的相关性为r=0.458,置信区间(0.350,0.553)。回归结果也表明模型得分是一个具有统计学意义的特征(β=0.115,(0.087,0.142))。
(预测结果分析)
调查数据来源为皮尤研究中心(Pew Research Center),时间区间为2020年3、4、6月,研究人员以CNN、Fox News、NYT和NPR四个主要媒体建立了每周媒体食谱模型。每个模型都是BERT采用民调前一周的COVID-19相关新闻文章训练出来的。调查针对全国12648 名受访者样本进行,在相关性和回归分析中,共有 32 个问题,每个问题 2 个答案,4 个媒体组, N=256。
下面是模型使用的数据集:
使用AYLIEN的新闻智能平台聚合、分析和丰富了与冠状病毒相关的在线新闻文章。
每周主要媒体数据集(CNN、Fox、NYTimes、NPR)包含平均384.3篇文章和12563.6个句子。
提示分析中使用的媒体偏见分组来自Allsides媒体偏见评级。
通过Factiva获得了CNN和FoxNews的电视节目脚本以及NPR的广播脚本。
基于电视/广播的冠状病毒模型适用于平均62.4个脚本和12697.8个句子的数据集。
选择BERT是有意为之的,因为它只在维基百科和BooksCorpus上进行了训练,没有任何在线数据。
引发争议
论文称该方法可以更准确地模拟人们对于媒体的反应,具有实际应用价值,可以补充民意调查并预测公众舆论,并且可以进一步研究神经语言模型在预测人类回复方面的表现。
但是,有人担心该模型还可能被证明对媒体操纵者有用,可用于评估其虚假宣传活动的有效性。对于该研究可能产生的负面影响,研究者在论文中并未讨论,但是在社交平台上可以看到众多网友就此研究负面影响的担忧。
作家Theo Priestley 认为:人工智能为操纵舆论、制造虚假新闻提供了工具,它将影响政治和商业竞争。“现在我们真的蹚入了道德的浑水。”
(作家Priestley在领英表达个人对该研究成果的担忧)
研究人员们强调:我们的研究结果并不意味着 (a) 人类可以被人工智能替代,或者 (b) 与人类进行的真实调查和对话可以被 AI 模型取代。我们的工作可以总结大量数据并支持人类进行决策,这正是新型自然语言工具的传统。媒体食谱模型是新工具潜在浪潮的一个例子,可以推动政治科学、社会心理学和计算社会科学的研究。最终,我们的目标是让这些模型以人为中心的方式帮助解决现实世界的问题。
研究团队还试图以同样的方法预测消息者信心,但结果不理想。
预测舆情