女王大学团队提出AI基础模型评审团方法，有望大幅提升AI研究效率

DeepTech深科技

2024-11-09 18:26发布于北京DeepTech深科技官方账号

全文2745字，阅读约需8分钟，帮我划重点

划重点

01加拿大女王大学研究团队提出AI基础模型评审团方法，旨在提升AI研究效率。

02该团队收集了来自17家顶尖科技公司的上千篇行业博客文章，创新性地使用基础模型进行自动分类和标注。

03通过分析这些博客，研究团队发现基础模型对软件工程的赋能以及软件工程原则如何应用于基础模型的开发和部署。

04为此，课题组提出了未来研究的方向，以期推动学术界与业界的深度结合。

05未来，该团队将继续升级基础模型陪审团方法，并期待与企业深度合作，推动基础模型在各个领域的广泛应用。

以上内容由腾讯混元大模型生成，仅供参考

近年来，人工智能基础模型（如 GPT-4 等大语言模型）快速发展，对各行各业产生了深远影响。

然而，虽然学术界对这些模型在软件工程中的应用进行了大量研究，但大部分研究主要聚焦于理论层面，很少涉及一线工程师在实际工作中的真实体验和反馈。而这些反馈，往往仅在科技公司发布的行业博客中隐约可见。

这些行业博客通常由顶尖科技公司的工程师和研究人员撰写，分享他们在开发、部署和应用基础模型时的实践经验。

这些博客不仅是科技公司展示技术实力的窗口，还记录了最新技术趋势、解决方案和遇到的挑战。

然而，由于这些内容属于“灰色文献”（即非正式出版物），缺乏系统性的分析，很容易被学术界忽视。

这就好比聆听乐队的录音室专辑，却未能亲临他们的现场演唱会——缺乏的正是那种在一线“现场”工作的真实感受。

基于上述情况，来自加拿大女王大学的研究团队决定转换视角，直接倾听那些实际使用这些模型的工程师们的声音，包括：他们如何在日常工作中应用这些基础模型，他们遇到了哪些具体的挑战和机遇等。这些都是学术研究中难以触及的宝贵信息。

图｜李豪（来源：李豪）

日前，相关论文以《软件工程和基础模型：使用基础模型评审团从行业博客中获取的见解》（Software Engineering and Foundation Models: Insights from Industry Blogs Using a Jury of Foundation Models）为题发表在预印本网站 arXiv 上 [1]。

女王大学博士后研究员李豪是第一作者兼通讯作者，加拿大阿尔伯塔大学考尔·保罗·贝泽默（Cor-Paul Bezemer）教授和女王大学艾哈迈德·E·哈桑（Ahmed E. Hassan）教授担任共同通讯作者。

图｜相关论文（来源：arXiv）

创新方法：利用基础模型提升技术文献分析效率

为了挖掘这座“宝藏”，该课题组收集了来自 17 家顶尖科技公司（如英伟达、谷歌等）的上千篇行业博客文章。面对海量数据，传统的分析手段显然难以胜任。于是他们提出：为什么不让基础模型自己来做这件事呢？

于是，研究人员创新地提出了“基础模型陪审团”的方法。

简单来说，让多个基础模型协作，对这些博客文章进行自动分类和标注，就像是让 AI 帮人们读懂这些文章。这种方法不仅大幅提升了研究效率，还展示了基础模型在处理大量技术文献上的潜力。

图｜研究方法学的概览（来源：arXiv）

该团队在这项研究中共经历了七个重要阶段，从最初的思路调整到最终的成果发布，每一步都深思熟虑，系统化推进。

起初，课题组将目光聚焦于白皮书，因其通常展现公司在基础模型（FMs， Foundation Models）和软件工程（SE，Software Engineering）领域的技术战略。然而深入探讨后发现，白皮书更多用于宣传公司理念，缺乏一线工程师的实际操作经验。

因此，他们转而分析科技公司的技术博客。相较之下，博客内容往往由工程师撰写，贴近真实的技术应用场景，成为研究基础模型赋能软件工程（FM4SE，FMs into SE practices）和软件工程原则赋能基础模型（SE4FM，SE methodologies to FMs）实践的理想数据来源。

为明确研究方向，团队提出了两个关键问题：

（1）业界博客中涉及哪些基础模型在软件工程中的应用？

（2）软件工程原则如何应用于基础模型的开发和部署？这两个问题贯穿研究始终，确保内容紧扣业界需求。

接下来，在数据收集阶段，他们从全球顶尖科技公司的博客中筛选出四千多篇相关文章，涵盖基础模型、软件开发、云计算等领域。

为了保证数据的相关性，引入了“基础模型陪审团”方法，以关键词筛查与人工复核结合，最终锁定了千余篇符合主题的博客文章。这一方法避免了无关信息的干扰，确保数据内容的可靠性。

另外，研究人员面对海量非结构化数据，传统手动标注不仅耗时且容易出错。为此，课题组创新性地提出了“基础模型陪审团”方法，让多个大语言模型协作进行内容分类和信息提取。

每个模型如同陪审员，对内容进行评分与分类，最终以投票形式决定结果。这种方法提升了数据筛选的效率和准确性，使团队能更迅速地聚焦于有价值的内容。

紧接着，在数据标注完成后，该团队深入分析这些信息，发现 FM4SE 领域的热点集中在代码生成和代码理解，而 SE4FM 则主要关注模型部署、系统架构和任务编排。通过这些分析，团队进一步了解了业界在两个方向上的实际需求和技术焦点。

基于这些洞见，课题组提出了未来研究的方向，以期推动学术界与业界的深度结合。

例如，如何利用基础模型进行遗留系统现代化，如何在模型开发中提升性能并优化数据管理等。这些方向不仅为学术研究提供了新思路，也为基础模型的实际应用带来启示。

完成研究总结后，团队还整理并发布了研究成果，希望能为学术界和业界提供实践参考。同时，他们公开了数据与方法，期望其他研究者在此基础上进一步优化和拓展，以更好地应对未来的技术挑战。

推动学术与行业的协同发展：基础模型与软件工程的前景

通过分析这些博客，研究团队观察到两个有趣的趋势。

首先是基础模型对软件工程的赋能。工程师们利用基础模型优化了软件开发的各个流程，不仅包括代码生成，还帮助理解复杂代码、生成代码摘要，以及推荐适合的应用程序编程接口。

这个“智能助手”角色为开发者提供了实用的支持，大幅提升了工作效率，减少了日常开发中的重复性工作。

其次，软件工程的方法也在反过来赋能基础模型的开发和部署。面对资源消耗巨大的大型模型，工程师们探讨如何高效部署和运营这些模型，如何设计灵活的系统架构以支持模型扩展等问题。

他们分享的实践经验包括通过云服务部署模型，或利用模型压缩技术使大型模型可在本地设备上运行，既解决了隐私问题，也显著降低了硬件成本。

这些发现不仅对一线工程实践有了更清晰的理解，也揭示了基础模型与软件工程之间的深度融合。

此次研究成果不仅在学术界产生了显著影响，更在应用方面展现出重要的价值。

首先，这项研究为学术界提供了一份清晰的指南，揭示了基础模型在促进软件工程和软件工程优化基础模型的关键难点。它有助于研究人员更精准地选择研究方向，使学术探索更密切地贴合行业需求。

此外，该团队提出的利用基础模型自动化分析文献的方法，如同为研究人员配备了一台智能文献助手。

在快速发展的科技领域中，这一方法能高效地收集、分类和解读大量非正式文献，为研究人员在海量信息筛选方面提供工具，以显著提升研究效率。

总的来说，该研究展示了同行如何利用基础模型提升代码生成、漏洞检测和模型部署等具体任务。这些经验为开发者优化工作流程提供了新思路，帮助基础模型更好地融入项目实践。

在教育领域，这项研究为课程内容的更新提供了宝贵的参考。教育者们可以通过融入这些前沿知识，培养出更加符合行业需求的新型人才，让学生们在毕业后更快适应基础模型在实际工作中的应用。

基于这一成果，课题组对基础模型在不同领域的潜力充满兴趣，并计划在这一“无人区”深入探索，挖掘更多“宝藏”。

据了解，“基础模型陪审团”方法也在进一步升级中，该团队希望将这把“万能钥匙”打磨得更加精致、高效，并尝试应用于其他领域，以便在未来的技术探索中发挥更大作用。

此外，课题组还期待与企业深度合作，参与真实项目，通过了解开发者在应用基础模型时面临的实际挑战，进而推动这一技术在各个领域的广泛应用。

参考资料：

1.https://doi.org/10.48550/arXiv.2410.09012

排版：何晨龙、刘雅坤

查看原图 733K