划重点
01Nature Methods研究首次系统性评估了五种大语言模型(LLMs)在基因功能发现中的表现,发现LLMs具有潜力但存在局限性。
02研究发现,LLMs不仅能提供与现有数据库一致的基因功能描述,还能在某些情况下提出更广泛且合理的生物学解释。
03然而,LLMs作为基因功能分析工具,当前仍处于辅助地位,其输出可靠性仍然是科学研究中的重要挑战。
04为此,未来的研究需要系统化地设计和优化提示策略,结合具体的实验背景,确保生成结果的准确性和可解释性。
以上内容由腾讯混元大模型生成,仅供参考
为了探讨大语言模型(Large Language Models, LLMs)在基因集功能发现中的潜力,该研究设计了一套系统化的评估流程。研究选取了五种代表性LLMs,包括GPT-4、GPT-3.5、Gemini Pro、Mixtral Instruct和Llama2 70b,旨在比较它们在基因功能命名与分析中的表现。该研究设计了两项核心任务:
任务一:文献整理基因功能的复现能力
研究从GO数据库中随机抽取了1000个基因集,覆盖广泛的生物学过程(Biological Process, GO-BP)。通过语义相似性(semantic similarity)指标,研究测试了五种LLMs(GPT-4、GPT-3.5、Gemini Pro、Mixtral Instruct、Llama2 70b)能否生成与GO命名高度匹配的基因功能描述。模型通过精心设计的提示(prompts)生成分析报告,包括基因功能描述、支持性文本和自信度评分(confidence score)。这些评分提供了模型对自身答案可信度的量化,帮助研究人员判断结果的可靠性。
任务二:组学数据中基因簇功能的探索能力
在第二项任务中,研究聚焦于实际生物学数据中的基因簇,包括药物处理(126个基因簇)、病毒感染(48个基因簇)和癌症蛋白互作(126个基因簇)等,覆盖从转录组到蛋白质组的广泛领域。每个基因簇都被输入LLMs以生成功能描述,同时与传统的功能富集分析工具(如g:Profiler)进行比较。研究还引入了基因集特异性(specificity)指标,用于评估功能描述与基因簇之间的覆盖程度。
大语言模型(LLMs)在基因集功能分析中的方法流程、任务评估和模型性能比较(Credit: Nature Methods)
参考文献