语言消亡纪元：机器腔症调查报告

虎嗅APP

2024-11-18 23:03发布于北京虎嗅APP官方账号

本文来自微信公众号：阿茶的AI之路，作者：起名贼费劲的阿茶，题图来自：AI生成

一、小说：《机器腔症调查报告》

最近，出现了一系列描述降临到语言共和国的奇特现象的报道。它们相互之间有很大出入，讲述了不少令人难以置信的事情。而这些居民，都患上了一种被称为“机器腔症”的精神疾病。

语言共和国是十年前建立的一个以文化创意产业为主的国家。然而，自从生成式人工智能普及后，一切都改变了。

最初的病例出现在首都“笔尖城”的一位知名作家身上。这位以风格独特闻名的作家突然停止了更新，并在社交媒体上发表了一篇自白。

“我承认自己一直在使用AI辅助写作，一开始只是用它提供灵感和建议。但最近重读自己的文章时，我感到一阵恐惧 ——那些整齐的段落层次， ‘首先’、‘其次’的过渡词，还有每段必用的‘因此’和结尾的‘总的来说’，都让我觉得不寒而栗。这些文字的结构统一而单调，哪怕是我自己都分不清到底哪些是我写的，哪些是AI生成的了。”

起初人们以为这只是一个作家对AI的过度依赖导致的创作危机，但很快，类似的症状在整个城市蔓延开来。

患者们表现出对特定表达方式的极度恐惧。他们开始本能地回避“首先”、“其次”、“总的来说”等词语，因为这些词语已经被AI写作软件过度使用，成为了机器生成内容的某种标记。

一位普通上班族在社交媒体上写道：

“每次写工作邮件，我都要反复修改。那些常用的总结语，那些工整的段落，都让我感觉自己不是在表达，而是在按照某种模式在输出。这种感觉很可怕，仿佛我正在把自己变成一个AI。”

特别值得注意的是，这种病症的发展与互联网上AI生成内容的激增密切相关。随着各类AI写作助手以及智能总结的普及，人们开始对某些特定的表达方式产生一种奇特的敏感。

“这种敏感几乎是潜意识的。”一位匿名的文学教授解释说，“当你在网上读了成千上万篇AI生成的文章后，你会开始本能地识别那些‘AI味’。每当拿到一篇新文章的时候，都会快速翻到最后一段，看开头是否是‘总的来说’。那些‘首先......其次.....结论’整齐划一的行文方式，还有每一项都按点分类，那些过分工整的逻辑关系，都会让你感到一种说不出的违和感。”

在笔尖城的一家心理诊所的病例中，记录了一位患者的自述：

“每当我写下‘因此’、‘总的来说’这样的词，我就会感到一阵恶寒。这些词没有问题，但它们让我的文章看起来像是大语言模型写的。我宁愿用更随意的表达方式，比如用一个表情符号，或者简单地换一个段落。”

这种症状并非如早期报道所说那样夸张。患者们并非完全拒绝书面表达，而是对某些特定的表达方式产生了应激反应。他们仍然在写作，只是变得更加随意，更倾向于使用口语化、带有个人特色的表达方式。

到了疾病爆发的第二个月，这种现象开始影响到社会生活的方方面面。公司的报告变得越来越口语化，学术论文开始出现大量意想不到的比喻，甚至连政府文件都开始出现一些刻意为之的不规范表达。

笔尖城的市长试图通过发起“自然表达运动”来缓解这种恐慌，但收效甚微。在新闻发布会上，新闻稿被指责“像是AI写的”，最终市长不得不临时改用即兴演讲的方式。

最令人不安的是，这种症状似乎具有某种传染性。仅仅通过长期浸润在AI文本中，人们就可能逐渐产生类似的反应。据统计，目前全球已有数百万人出现了不同程度的“机器腔症”。

世界卫生组织的专家们对此表示担忧。一位匿名专家说：“这可能是人工智能时代给人类带来的普遍性的语言表达障碍。它正在潜移默化地改变人们的日常交流方式。”

在笔尖城的一家咖啡馆墙上，我们看到了一行小字：“在这个AI无处不在的时代，保持自然随意的表达方式，或许才是最珍贵的”。这或许是对这场正在发生的语言危机最好的注解。

——《语言共和国晚报》特约记者阿茶

二、后记：AI时代的语言焦虑

我感觉我逐渐被大语言模型剥夺了用词的权利。有一些词，似乎成为了大模型的专属。

比如“总的来说”。当看到这个词的时候，我会下意识怀疑这篇文章是不是AI写的。这种逻辑清晰的表达在大模型出现之前，被当做是有条理的表现，现在为什么却开始让我觉得莫名的抗拒？

大语言模型并不只是语言的学习者，它也在悄然成为语言的塑造者。这种趋同化过程是无声无息的。随着AI写作的普及，各种各样AI生产的内容已经铺天盖地进入人类世界，生产效率远超人类的效率。当我打开Edge浏览器首页的时候，发现里面可能有一半的文章都是AI写的。当我查看微信公众号推荐时，结构一致的文章越来越多。很多文章的结构都是分点描述但十分空洞，评价模棱两可，似乎是在隔靴搔痒。而拉到文章最后，往往也会有一个总结段落。这个时候我才反应过来：“哦，这是大模型写的。”

我在上周阅读了一篇论文：《A linguistic analysis of undesirable outcomes in the era of generative AI》，讲的是一个并不算新鲜的话题：使用合成数据训练模型，会造成模型的崩坏。比如语言趋于单调，更重的模型幻觉......但是我想到，人类本质上也是一个在不断学习进化的过程。如果把这些AI生产的数据扔到人类社会，我们每个人相当于一个可以学习的参数。是不是也相当于在用合成数据去训练人类群体呢？用词逐渐单调匮乏而趋于一致，因为我们都在用AI助手辅助写作，辅助头脑风暴.......

随着AI原创或改写的文章越来越多，它与真实语言的分布偏差，很有可能会改变人类的语言习惯。那些我们原有的属于人类的，“不够精准”的语言表达习惯，可能会在未来的五年、十年内被潜移默化地改掉。就像这篇论文的图。随着训练的迭代，依赖合成数据训练的模型变得越来越单调。

或许我们的语言正在经历一场无形的重构。

2024.11.18

阿茶

本文来自微信公众号：阿茶的AI之路，作者：起名贼费劲的阿茶

本内容为作者独立观点，不代表虎嗅立场。未经允许不得转载，授权事宜请联系 hezuo@huxiu.com

正在改变与想要改变世界的人，都在虎嗅APP

查看原图 1.4M