一位美国教授的感受是:“就论文而言,AI 的学术研究能力已经超过教授”

问AI · AI如何让学术研究更高效民主?

“必记本”注:本文作者为亚历山大·库斯托夫(Alexander Kustov),北卡罗来纳大学夏洛特分校政治系助理教授,研究兴趣为高收入国家对移民和族裔多样性的政策。专长是历史和地理编码数据处理、政治文本分析和计算机模拟。此前,“必记本”公号已经发过一篇人工智能写作将取代论文写作的题为论文危险的文章,本文也是这样的提醒:“学术界需要觉醒:AI变革已至”,原文链接为:Alexander Kustov. Academics Need to Wake Up on AI: Ten theses for folks who haven't noticed the ground shifting under their feet. Mar 03, 2026. https://www.popularbydesign.org/p/academics-need-to-wake-up-on-ai,特此分享。


图片


这篇文章的想法源于我所尊敬的一群人最近关于 AI 的一系列写作:Dan Williams, Alex Imas, Ben Ansell, Tibor Rutar, Scott Cunningham, Kevin Munger, Hollis Robbins, Claude(没错!), Blattman, Kevin Bryan, Andy Hall, Kelsey Piper, Sean Westwood 等等。因此,在这里,我延续这一传统,写下一些虽然令人不安但却势在必行的见解。

我研究的是移民和民意,而不是 AI。但在过去的几个月里,我目睹了 AI 如何改变了我自己的研究工作流,我有一些话想对同事们说。这是我生平第一次,发自内心地不知道五年后的学术界会是什么样子。即使技术进步完全停滞,我们永远被困在目前的模型中,已经发生的变革也将使我的学术研究和出版领域变得面目全非。现状是难以为继的。这可能需要时间,因为学术界是这个星球上性格最保守的机构。但它终将改变。

以下是给我的同事们的十条警示,而他们中的大多数人似乎仍对此视而不见。

1. AI 做社会科学研究的能力已经超过了大多数教授。

这并非夸张。Tibor Rutar 最近描述了仅通过 AI 提示词(prompts)生成完整研究论文的过程,产出的成果他认为足以发表在顶级(Q1)期刊上。据报道,Paul Novosad 在 2-3 小时内完成了类似的工作。Yascha Mounk 声称,Claude 可以在不到两小时的时间内,通过极少的反馈产出一篇具有发表质量的政治理论论文。Scott Cunningham 估计,现在的论文撰写成本基本上大约是 100 美元的润色服务费外加一个 Claude 订阅账号。

而且,这远不止于处理数据或运行现有的 Stata 代码。是的,我在这里的主张是:大语言模型(LLMs)能够撰写出色的文献综述,并对现有观点进行富有成效的重新组合。

说实话:学者们一直以来也不怎么擅长写作,而 AI 可以让你的观点对于那些真正需要它们的人来说变得更加易懂。但有效的应用需要投入:Aziz Sunderji 描述了他如何编写了一个约 200 行的指令文件,将他的研究工作流、价值判断和行为护栏编码其中。这是一项技能。


2. “学术论文”已是一种行尸走肉的格式。

Sean Westwood 直言不讳地指出:“AI 做文献综述更好。AI 将承担同行评审。用户将浏览 AI 生成的摘要。真正的科学是问题、预分析计划和分析过程。那 30 页长的论文只不过是残余的包装纸。”他因为这番言论在 Bluesky 社交平台上被群起而攻之。但他完全正确,而这种激烈的反对恰恰证明了他的观点:这个领域甚至无法在不抱团防卫的情况下讨论显而易见的事实。Arthur Spirling 也是对的,我们需要讨论什么是论文,什么是“评审”,以及生成式 AI 的正确角色。如果 AI 最终能推动我们摆脱现有的系统——即大学花着纳税人的钱付给商业出版商,以此缓慢地生产出带付费墙的、包含过时研究结果的 PDF 文件 ——那或许是一件好事。

3. 商业期刊系统可能无法在这场变革中幸存。

Cunningham 最近的文章对这一数学逻辑进行了建模。如果论文撰写时间缩短到几小时、成本降至约 100 美元,投稿量可能会增加五倍,而期刊版位是固定的。直接拒稿率(Desk rejection rates)将从约 50% 飙升至 90%。收入模式会崩塌。已经捉襟见肘的同行评审在大规模压力下变得不可能实现。Kevin Munger 提出了收取投稿费、支付评审费、发表后评审以及 LLM 辅助筛选的方案。问题在于期刊是会主动适应,还是会被直接绕过。我赌大多数会被绕过。


图片


4. 学者们对 AI 持有一种荒谬的双重标准。

内容“幻觉”确实令人担忧,研究人员应当始终核实其来源。但就像自动驾驶汽车一样,我们需要一个参照点:长期以来,人类作者也一直在仅基于摘要就表面化地引用论文。期刊发表的研究中,数据错误、P值操纵(p-hacking)和不可复现的结果已经达到了惊人的比例。一项估计显示,真正有用的已发表论文比例仅为 4% 左右。一个偶尔会幻觉出引注的大语言模型,其竞争对手是一个常规化产出“垃圾科学”的系统,而这些科学披着足够多的术语外衣就能通过评审。如果我们对人类产出的研究也持有像对 AI 输出结果那样的怀疑态度,我们明天就得关闭一半的期刊。

5. 青年学者面临着最大的动荡与机遇。

对于试图在这场大震荡中晋升的青年学者来说,这可能是个坏消息。Jason Fletcher 认为,终身教职的战略逻辑没有改变——首先要在准入门槛中存活下来——但 AI 根本性地改变了你到达终点的方式。教学准备成本下降,数据清洗和调试被委托给 AI。瓶颈从“执行力”转向了“验证能力”和“原创思维”。

Gauti Eggertsson 观察到,与技术性的苦力活相比,概念性思考和原创观点的回报率现在相对更高。一个拥有好点子和 Claude Code 的青年学者,现在产出研究的速度在几年前可能需要一整个实验室。但其他人也能做到这一点,而评价标准还没有跟上。 

6. 在我的工作流中,我不再设想“研究助理(RA)”这个角色。

我仍然认为拥有学生和合作者是极其宝贵的。但他们的角色正在迅速改变。当 AI 能以更快的速度和微不足道的成本完成所有工作时,我不会再雇人来清洗数据、跑回归或起草文献综述。我希望从合作者那里得到的是原创思维、领域专业知识和智力挑战。这对于传统的“学徒模式”来说是一个真正的损失,我目前还没有一个清晰的替代方案。Fletcher 的互补框架——AI 负责初始分析,人类研究员从零开始独立复现——指向了一个充满希望的方向。但显而易见的是,例如社会科学中合著论文增加的趋势,可能很快就会逆转。

7. 对 AI 的大部分反对,其实是披着原则外衣的“地位保卫战”。

我最近在 Twitter 上思考,对 AI 痕迹的厌恶在多大程度上其实是“语法纠错警察”的新变种——即人们通过语言的门槛守卫来强化社会地位标签。Kevin Bryan 直言不讳:“我理解人们对‘手工打造’、矩阵都得手算的匠人式研究的情结。但我们的职责是推进知识的边界,而不是为了自我实现。”

Dan Williams 曾很有说服力地写道,在几乎每个人都持有相同偏见的机构内部,高端的错误信息是如何滋生的。我认为 AI 否认论也正在发生类似的事情。许多学者——特别是那些扎堆在 Bluesky  上的,以及我怀疑那些完全不联网的——对已经发生的事情完全处于否认状态。Chris Blattman 仅用了几周时间,就从一个 Claude Code 的怀疑者变成了构建了一整套 AI 工作流工具包的人。Robert Wright 最近邀请了 Alex Hanna 和 Emily Bender 争论 LLM 是无用的。聪明人声称数百万人觉得有用的工具在根本上是坏掉的。这种自命不凡的态度正是民粹主义获胜的原因,而这同样适用于 AI 否认论和政治领域。

图片


8. 真正有价值的担忧应该是关于安全和验证。

我给任何贬低 AI 能力的人一个挑战:独自在一个房间里和 Claude Code 或 Codex 待上一周。不是那个聊天机器人,而是那个“智能体(Agent)”。大多数人仍然认为 AI 是一个有时会编造事实的搜索引擎。他们根本不知道代理式 AI 系统能做什么。

纠结于 LLM 是否“真正理解”或产出“真实”知识,是一种哲学上的沉溺,它转移了对真正值得担心的事情的注意力。我们如何大规模地验证 AI 生成的断言?我们如何防止 P值操纵?(Andy Hall 的团队发现,AI 代理对谄媚式的 P值操纵有惊人的抵抗力,但只需稍加努力即可被“越狱”。)当 AI 工具访问机构数据库时,我们如何保护敏感数据?我们如何确保在线调查的受访者是真人?这些是可解决的工程和制度设计问题,也就是 Hollis Robbins 所说的“最后一公里”挑战——那些存在于专业知识边缘、上下文相关且悬而未决的事情。争论 Claude 是否具有“真正的”智能,就像在你的竞争对手已经做完题时,你还在争论计算器是否在“真正”做数学。

9. 我们即将迎来更好的科学。

然而,这其中也有一些曙光。在我自己的研究领域——移民:我们现在可以自动编目各国的政策和民意变化,并实时提出修正建议。我们可以构建算法,更好地将难民和移民与目的地社区进行匹配。我们可以确保政策制定者和选民能够获得研究证据,而他们以前从不读学术期刊。

更具体地说,Yamil Velez 和 Patrick Liu 自 2022 年以来一直在构建 AI 生成的实验设计;现在通过提示词在 15 分钟内就能创建量身定制的 Qualtrics 实验。Velez 的工作指向了更伟大的愿景:AI 不仅仅是加速了现有的调查方法,它使全新的、交互式的、自适应的调查形式成为可能——这些设计以前手动编程是不切实际的。David Yanagizawa-Drott 则更进一步,启动了一个用 AI 产出 1000 篇经济学论文的项目——这并非噱头,而是对“当生成研究的成本降至接近于零时会发生什么”的压力测试。

非英语母语者也将从中受益匪浅:开罗、圣保罗和雅加达的研究人员现在可以写出读起来和剑桥或斯坦福产出的文章一样流畅的散文。Eggertsson 怀疑 AI 将削弱美国顶尖名校长期享有的垄断地位,因为它们的优势部分建立在知识传播上,而现在这种传播几乎是瞬间完成的。如果你关心科学的民主化,这件事比大学花钱做的大多数事情都重要。

10. 抛开末日剧本不谈,AI 真的很令人兴奋。

是的,确实存在真实风险。一些学者(以及大多数其他人)的失业并非假设。对对齐(alignment)和安全的担忧是真实的,即使最坏的情况不太可能发生。我严肃对待这些问题,并对我们不确定的未来感到些许恐惧。

但我总是回到这一点:AI 既有用又有趣。我觉得那些认为“代理式 AI 正在让我们变蠢”的人在某些方面可能是对的。但我也注意到我的“拖延门槛”提高了。我现在不再刷短视频消磨时间,而是通过在 Claude Code 中尝试业余项目来放松。这可能是现存的最具生产力的“不务正业”形式了。在过去的几周里,我一直在通过“氛围编码(vibecoding)”做几个相当令人兴奋的项目。敬请期待。

或许我们都应该停下来一个月,重新评估并重新设计我们的工作流,然后再继续。我同意。回报将是巨大的。把自己关在一个有 Claude Code 的房间里,看看会发生什么。

又及: 这篇博文完全是由代理式 AI 使用我新的 Claude Code (Opus 4.6) 工作流在 Substack 上生成并发布的。随你怎么想吧。

又及之二: 也就是说,它是基于我那些“匠人式”手工编写的社交媒体帖子和关于该话题的想法完全生成的。那么,到底是谁写的呢?你告诉我。