在该文章中,来自复旦大学的杨力研究员就“人工智能时代转录组RNA系统解析”这一主题发表观点。随着人类基因组计划(HGP)的完成以及高通量测序技术的广泛应用,研究人员意识到基因表达在转录组水平存在着复杂调控,表明解析转录组的功能绝非易事。首先,人类基因组中蛋白质编码基因的数量只有2.1万个,远小于预期的10万个;与此相反,越来越多大小不同、形状各异和功能多样的非编码RNA(ncRNA)在转录组中被广泛发现。其次,人类转录组的复杂性还体现在转录本水平,通过可变剪接和可变多聚腺苷酸化等复杂调控,一个基因可以产生多个转录本,拓展了转录组的复杂性。最后,单碱基水平的RNA编辑和修饰进一步拓展了转录组的复杂性:即使序列相同的两个转录本RNA分子,由于单碱基水平的RNA编辑和修饰差异,其动态与功能也可能不同。迄今为止,研究人员仍未能系统全面地描绘转录组在细胞和组织水平调控的复杂性,而转录组时空调控的网络及潜在机制也尚未明晰。与此同时,RNA的功能发挥也依赖其精确的空间定位、正确的结构折叠以及与特定蛋白因子的相互作用等,而目前我们对RNA分子这些内在特征的理解只是冰山一角。令人兴奋的是,随着单细胞转录组和空间转录组测序等技术的广泛应用,研究者已经开展了大量工作并详细描绘转录组的动态特性,极大地扩展了我们对RNA何时、何地以及如何发挥功能的认知。在大数据和人工智能(AI)驱动的科学研究范式转变时代,如何高效地利用不断增长的转录组数据开展研究既是机遇也是挑战。整合机器学习、深度学习和大语言模型(LLM)等开发新型的生物信息学框架或许能提供创新的解决方案。例如,通过应用类似LLM的原理来解释转录组数据,可以解析基因、转录本和单核苷酸水平的转录组复杂调控网络及其潜在机制。此外,应用类似于AlphaFold的模型预测RNA结构也受到业内的广泛关注,但目前RNA 结构数据的缺乏阻碍了相关进展。特定AI模型的开发和高质量数据的获取对推动相关研究至关重要。将来,这些工作不仅有望加深人们对RNA复杂性的理解,还将为基于RNA新技术的生物医学新应用奠定基础。
参考文献
责编|探索君
排版|探索君
来源|BioArt