为了探讨大语言模型(Large Language Models, LLMs)在基因集功能发现中的潜力,该研究设计了一套系统化的评估流程。研究选取了五种代表性LLMs,包括GPT-4、GPT-3.5、Gemini Pro、Mixtral Instruct和Llama2 70b,旨在比较它们在基因功能命名与分析中的表现。该研究设计了两项核心任务:
任务一:文献整理基因功能的复现能力
研究从GO数据库中随机抽取了1000个基因集,覆盖广泛的生物学过程(Biological Process, GO-BP)。通过语义相似性(semantic similarity)指标,研究测试了五种LLMs(GPT-4、GPT-3.5、Gemini Pro、Mixtral Instruct、Llama2 70b)能否生成与GO命名高度匹配的基因功能描述。模型通过精心设计的提示(prompts)生成分析报告,包括基因功能描述、支持性文本和自信度评分(confidence score)。这些评分提供了模型对自身答案可信度的量化,帮助研究人员判断结果的可靠性。
任务二:组学数据中基因簇功能的探索能力
在第二项任务中,研究聚焦于实际生物学数据中的基因簇,包括药物处理(126个基因簇)、病毒感染(48个基因簇)和癌症蛋白互作(126个基因簇)等,覆盖从转录组到蛋白质组的广泛领域。每个基因簇都被输入LLMs以生成功能描述,同时与传统的功能富集分析工具(如g:Profiler)进行比较。研究还引入了基因集特异性(specificity)指标,用于评估功能描述与基因簇之间的覆盖程度。
大语言模型(LLMs)在基因集功能分析中的方法流程、任务评估和模型性能比较(Credit: Nature Methods)
参考文献