艾伦研究所与华盛顿大学团队推出开源科研大模型OpenScholar,用小参数超越GPT-4o

近几十年来,全球科学研究的进展促使论文数量迅猛增长,每年有数百万篇研究成果被发表,这一方面为科研人员提供了丰富的参考资源,推动了知识的积累和共享,但另一方面,也带来了难以应对的信息过载问题。科研人员面对如此庞大的文献量,往往难以快速找到高质量、相关性强的研究,从而影响了科研效率和创新。

图片图丨各大出版商每年发表的文章总数的变化(来源:OpenAlex)

直到人工智能凭借其能力给这一问题带来解决方案。从最初的尝鲜与不信任,再到现在逐渐融入科研日常,越来越多的研究人员开始使用 ChatGPT、Perplexity 等 AI 工具来进行文献检索和信息综合。

然而,这些通用模型在处理科学问题时往往存在生成幻觉、成本高昂以及参数规模过大的缺陷,限制了它们在科学领域的适用性。

为此,由艾伦人工智能研究所 (Ai2) 和华盛顿大学合作,开发了一个针对科研的开源模型 OpenScholar。

图片图丨 OpenScholar(来源:Ai2)

作为一种“检索增强型语言模型”(Retrieval-Augmented Language Model),它将尖端检索系统与经过微调的语言模型相结合,旨在应对科学查询时能够检索出相关文献并生成带有真实引用的综合性回答,其核心架构由以下部分构成。

就其数据存储而言,主要包含来自 Semantic Scholar 的 4500 万篇开放获取的论文和约 2.5 亿个相应的段落嵌入。这些数据来自 peS2o 的更新版本其中包含截至 2024 年 10 月的论文,是目前科学领域最大的开源数据库之一。

每篇文献都被分割为独立的段落,并通过嵌入技术进行向量化处理,使模型可以根据查询高效地检索到最相关的内容。相比于通常只依靠训练数据的语言模型,OpenScholar 能够较大程度地克服许多传统模型存在的“幻觉”(即生成不存在或错误引用)的不足,提升内容的可信度和引用的准确性。

在检索时,模型会利用经过专门训练的检索器(OpenScholar-Retriever)从中找到与查询最相关的文献段落。检索器的初始候选段落由双编码器(bi-encoder)进行预筛选,然后通过交叉编码器(cross-encoder)进行重排,以确保检索结果的准确性和相关性。

双编码器主要用于对文献段落和查询进行编码,并通过计算余弦相似度来进行初步筛选,生成候选段落集合。接下来,交叉编码器会对每个候选段落与查询进行联合编码,以捕捉更深层次的语义关联,从而生成更精确的重排分数。这种组合使用双编码器和交叉编码器的方式,既保证了初步检索的速度,又确保了最终返回段落的质量。

图片图丨 OpenScholar 流程概述(来源:Ai2)

接下来,经过筛选的文献段落会被传递给 OpenScholar 的生成模块——一个经过专门训练的 Llama 3.1 8B 参数语言模型。该模型结合上下文段落与输入的科研问题,生成初步的回答。在生成回答后,OpenScholar 引入了一种自我反馈机制。

这种自我反馈迭代过程被称为检索增强的自我反馈推理,它包含三个主要步骤:(1)初步回答生成及反馈生成,(2)基于反馈的检索与迭代改进,以及(3)引用验证。

首先,初步回答生成及反馈生成的步骤中,模型不仅生成对问题的回答,还会生成一系列自然语言的反馈,这些反馈包含对初步回答中可能存在的问题的描述,例如需要补充哪些细节、改进哪些组织结构等。

其次,在基于反馈的检索与迭代改进阶段,模型使用生成的反馈来检索更多相关文献,进一步完善回答内容。最后,在引用验证阶段,模型会对回答中的每个引用进行核查,以确保每个科学论断都有足够的文献支持。

为了评估 OpenScholar 的性能,研究团队开发了首个跨学科的大规模文献检索基准—ScholarQABench,涵盖了计算机科学、物理学、神经科学和生物医学等领域,共包括 2967 个专家编写的问题和 208 个长篇回答。

与现有系统相比,OpenScholar 表现出显著优势。在测试中,OpenScholar-8B 的回答准确度超过了 GPT-4o 模型 5%,比基于 GPT-4o 构建的 PaperQA2 高出 7%。

图片(来源:Ai2)

在回答开放式研究问题时,团队发现 GPT-4o 在 78%–90% 的情况下会生成虚假的引用,OpenScholar 却达到了与人类专家相当的引用准确度。

值得一提的是,OpenScholar 的数据存储、检索器和重新排序模型以及自反馈生成管道还可以应用于其他现成的语言模型。将其应用在 GPT-4o 时,模型的准确度提高了 12%。

另外,专家评审中,在对比模型生成的回答与人类专家编写的回答时,51% 的情况下,专家更倾向于 OpenScholar-8B 的回答,而 OpenScholar 结合 GPT-4o 的版本更是达到了 70% 的偏好率,远超 GPT-4o 的 32%。

不过,在剩余的 30% 的情况中,模型也存在未能引用基础论文或选择代表性较低的研究等不足。

另外,由于该模型的数据主要来自于开放获取论文,这在一定程度上限制了它在一些高风险领域(如制药业)的应用,因为这些领域的大部分研究是付费获取的。且其生成成果在很大程度上依赖于检索数据的质量。如果检索步骤失败,整个流程可能会产生次优的结果。

所以,这类人工智能工具的存在,依旧是为了增强而非取代人类的专业知识。它的目标是通过处理耗时的文献综合任务来帮助研究人员,使他们能够专注于解释和推进知识。

目前,OpenScholar 的代码、模型、数据存储、评估工具等已全部开源(项目地址:https://github.com/AkariAsai/OpenScholar)。

参考资料:

1. https://openscholar.allen.ai/paper

2. https://allenai.org/blog/openscholar

3.https://venturebeat.com/ai/openscholar-the-open-source-a-i-thats-outperforming-gpt-4o-in-scientific-research/

运营/排版:何晨龙