Abstract
摘 要
近日,扬州大学农学院张韬教授课题组在Molecular Plant在线发表了题为PDLLMs: A group of tailored DNA large language models for analyzing plant genomes的研究论文,开发了一系列基于植物基因组的基础DNA大语言模型,该研究构建的130M大小的plant DNAMamba模型仅以十分之一的参数量就打败了由InstaDeep、Google DeepMind顶尖机构联合开发的同类模型AgroNT。模型的开发填补了植物基因组研究中缺乏适宜本地化运行的基础DNA大语言模型的空白。
https://doi.org/10.1016/j.molp.2024.12.006
研究背景
Background
研究内容
Contents
在该研究中,作者首先基于14个代表性的植物参考基因组,结合5种先进的基础架构设计,包括BERT, NT, GPT, Gemma和Mamba,构建了一系列大小在100M左右且适用于植物的基础DNA大语言模型。之后作者构建了一套植物基因组预测数据集,包含核心启动子、序列保守性、多种组蛋白修饰、lncRNAs、开放染色质和启动子活性的预测任务。将先前构建的不同DNA大语言模型应用到这些预测任务中,并与3个代表性DNA大语言模型(DNABERT-2、NTv2和AgroNT)进行比较,结果表明该研究构建的大语言模型整体上优于其他非植物的DNA大语言模型。除此之外,基于Mamba的植物DNA大语言模型几乎在所有预测任务中均强于比其参数量多10倍的植物基础模型AgroNT。说明基于新架构的DNA模型在效率和性能上都更有优势,并且能够更好地被个人用户使用。
图1. 植物基础DNA大语言模型的构建和比较
该研究进一步比较了DNA大语言模型和非大语言模型在植物基因组预测任务中的性能。结果发现不论是在lncRNAs任务,启动子强度任务还是开放染色质预测任务上,plant DNAMamba模型表现都优于基于CNN或者LSTM架构的专用深度学习模型。该结果反映出了DNA大语言模型的高效和普适性,仅需要单个基础模型就可以实现多种基因组任务的预测和分析。
最后,作者基于所有构建的模型,开发了一个用户友好的在线预测平台,支持多种核心基因组任务的预测,同时提供了最优模型的推荐,方便湿试验人员快速进行序列分析。预测平台的访问地址为:
https://finetune.plantllm.org或https://bioinfor.yzu.edu.cn/llms/finetune。
为了方便开发者使用相关模型,作者同时将模型的微调和推理代码上传到了GitHub (https://github.com/zhangtaolab/Plant_DNA_LLMs)和Gitee (https://gitee.com/zhangtaolabyzu/Plant_DNA_LLMs)上。同时已开放“植物大语言模型交流QQ群”(756369317),方便用户交流和讨论模型训练和推理时存在的问题。
扬州大学农学院张韬教授为该论文的通讯作者,扬州大学博士生刘冠卿为该论文的第一作者。该研究得到了国家自然科学基金、江苏省重点研发计划(现代农业)、钟山生物育种实验室课题、江苏省高校优势学科建设工程项目的资助。
参考文献:
Dalla-Torre, H., Gonzalez, L., Mendoza-Revilla, J., Lopez Carranza, N., Grzywaczewski, A.H., Oteri, F., Dallago, C., Trop, E., de Almeida, B.P., Sirelkhatim, H., et al. (2024). Nucleotide Transformer: building and evaluating robust foundation models for human genomics. Nat Methods 10.1038/s41592-024-02523-z.
Mendoza-Revilla, J., Trop, E., Gonzalez, L., Roller, M., Dalla-Torre, H., de Almeida, B.P., Richard, G., Caton, J., Lopez Carranza, N., Skwark, M., et al. (2024). A foundational large language model for edible plant genomes. Commun Biol 7:835. 10.1038/s42003-024-06465-2.
Nguyen, E., Poli, M., Faizi, M., Thomas, A.W., Sykes, C.B., Wornow, M., Patel, A., Rabideau, C., Massaroli, S., Bengio, Y., et al. (2024). HyenaDNA: long-range genomic sequence modeling at single nucleotide resolution. Proceedings of the 37th International Conference on Neural Information Processing Systems. Curran Associates Inc.
Zhou, Z., Ji, Y., Li, W., Dutta, P., Davuluri, R., and Liu, H. (2023). DNABERT-2: Efficient Foundation Model and Benchmark For Multi-Species Genome. arXiv 10.48550/arXiv.2306.15006.
来源:MPlant植物科学