原文作者:Richard Van Noorden
一项为《自然》所作的分析,揭示了当今学术论文参考文献中引用量靠前的研究成果。
插图:Chiara Vercesi
借用牛顿的名言:研究者的进步是站在巨人的肩膀上。那么,如今还有哪些“研究巨人”依旧在学术界被频繁引用呢?
要回答这个问题,一个方法是确定目前学术论文参考文献中常出现的文章。《自然》邀请三位专门研究学术引用模式的计量学专家,对数据展开深入分析。他们审阅了2023年发表的所有论文中所引用的数千万条参考文献,这在当时是在各大研究数据库中数据较为完整的一年。
研究人员发现,当今学术引用列表中,以人工智能(AI)、科学软件以及提升研究质量的方法等为主题的二十一世纪论文占据主导地位。不过,2000年之前发表的一些研究现在依旧被大量引用(见“哪些论文被引用得多?”)。
*数据来源:Web of Science、OpenAlex、Scopus。以上排名依据三大数据库的中位值排序。具体方法及完整数据,见参考文献2和补充材料。
“对大量论文中引用的文献进行研究,为找出一个领域的学术根源奠定了基础。”德国马克斯·普朗克固体研究所的科学计量学家Robin Haunschild说。
“这揭示出一个学科群体中真正重要的论文。”德国慕尼黑马克斯·普朗克学会的科学社会学家Lutz Bornmann补充道。Bornmann与Haunschild,以及德国莱比锡应用科学大学的计算机科学家Andreas Thor共同完成了为《自然》所作的这项技术上极具挑战性的分析。他们使用了Bornmann和Thor等人在2016年开发的软件的改进版本,该工具能帮助研究人员探索文献引用情况[1]。
为了整理出当今学术论文中高被引的参考文献列表,《自然》综合了三个数据库的排名中位数(见科学计量学专家的研究方法[2]及补充材料)。
AI领域的“意见领袖”
分析结果显示,过去十年间发表的人工智能(AI)研究居当今学术论文中引用次数之冠。《自然》在对二十一世纪发表的高被引论文所作的相关探讨中,也发现了类似的趋势。
然而,一些更早期的AI研究在2023年仍然是高被引论文。例如,一篇于1997年发表的论文[3],介绍了一种名为长短期记忆(LSTM)的早期神经网络架构,主要用于语言建模,这篇论文在2023年的引用量中排名第十。由于其高效性,LSTM仍然在某些数据处理任务中得到广泛应用。这篇1997年论文的作者之一、AI领域的先驱Jürgen Schmidhuber如今就职于沙特阿拉伯的阿卜杜拉国王科技大学(KAUST)。他指出,并不是所有早期的AI论文都能获得同等程度的认可,部分原因是当时提出这些概念时,技术条件还不足以将它们付诸实现。
他说:“令人遗憾的是,AI和机器学习领域充斥着剽窃。而且,有些知名度极高的论文其实并未引用那些早期发表、计算成本是如今几百万倍的原创研究。”
材料领域热度不减
值得注意的是,另一篇近三十年前发表的研究论文[4]在2023年发表的所有论文中被引用次数排在第四位。1996年,三位就职于美国杜兰大学的研究人员发表了一种巧妙且运算速度快的近似算法,可以用于软件中帮助研究者计算材料中电子的相互作用,以更好地理解材料特性。
“这篇论文的引用量就这样一路飙升。”物理学家Kieron Burke说。他与物理学家John Perdew和Matthias Ernzerhof是这篇文章的共同作者。根据Dimensions研究数据库的统计,该论文总引用量有四分之一是在过去两年间获得的,并且它也是史上被引次数排名第四的研究论文(见“史上引用量第一的论文”)。
现就职于加州大学尔湾分校的Burke指出,过去十年间,全球大学与企业都在大力投入,尝试探索新型先进材料——这也带动了相关算法使用量的大幅增长。他说:“这些电子结构计算对于材料设计的未来很重要。”
这项研究只是密度泛函理论(DFT)领域众多成果之一。DFT是在研究分子和材料时,用于简化量子力学方程的方法。另一篇同样于1996年发表的DFT论文[5]在2023年的引用次数中排名第九,在历史总引用次数中则位居第八。
Burke对有多少研究人员会真正去阅读这些原始论文持怀疑态度——他认为,学术界已经形成了一种引用DFT核心方法论文的文化。他认为,出现这种情况部分是因为该领域存在多种竞争性的近似算法,因此明确表明所采用的具体方法格外重要。
测量分析
当今仍被大量引用、且排名前20的论文中,比较早的是一篇于1981年发表的文章[6]。它探讨了一种统计方法,用以解决测量变量与其“潜在变量(即推测存在但尚未直接观测到的因素)”之间关系建模所面临的问题。举例来说,人在认知测验中得到的成绩可能与其潜在的“智力”或“人格”相关。
该论文的共同作者David Larcker任职于美国斯坦福大学,主要研究会计与公司治理。他表示,这篇论文诞生于一个研究人员在心理学、营销学和社会学等领域使用潜变量分析的时期。Larcker说,“随着潜变量分析的使用日益普及,我们提出的测量方法也成为众多研究者在论文中经常报告的内容。”
参考文献:
Thor, A., Marx, W., Leydesdorff, L. & Bornmann, L. Preprint at arXiv https://doi.org/10.48550/arXiv.1601.01199 (2016).
Haunschild, R., Thor, A. & Bornmann, L. Preprint at Edmond https://doi.org/10.17617/3.B41MPK (2025).
Hochreiter, S. & Schmidhuber, J. Neural Comput. 9, 1735–1780 (1997).
Perdew, J. P., Burke, K. & Ernzerhof, M. Phys. Rev. Lett. 77, 3865–3868 (1996).
Kresse, G. & Furthmüller, J. Phys. Rev. B 54, 11169 (1996).
Fornell, C. & Larcker, D. F. J. Mark. Res. 18, 39–50 (1981).
原文以Science’s golden oldies: the decades-old research papers still heavily cited today标题发表在2025年4月15日《自然》的新闻特写版块上
©nature
Doi:10.1038/d41586-025-01126-8