导读
DNA是生物体内最重要的分子之一,在生命活动中扮演着核心角色,从个体发育到物种演化,从疾病机制到生物技术创新,DNA的核心作用贯穿始终。它不仅是遗传信息的载体,也指导蛋白质合成,调控生命活动……
理解DNA的功能,是现代生物学、医学和农业科技进步的基石,但尽管科学界对DNA的研究已经深入,仍然有着不少难解之谜, “垃圾DNA”之谜就是其中之一。
人类基因组中有约98%的DNA不直接参与编码蛋白质,曾被认为是“垃圾DNA”。虽然已知其中一部分参与调控,但绝大部分非编码DNA的功能尚不清楚。它们真的是“垃圾”吗?
今天,由Google DeepMind团队发布的一项研究,或许能为“垃圾DNA”讨一讨"说法”。
林 岩 | 编译
今天,一篇由Google DeepMind团队发布在《自然》杂志上的论文引起了广泛的关注,该团队设计了一个名为AlphaGenome的人工智能模型。
这是一种新的人工智能工具,能够更全面、更准确地预测人类DNA序列中的单个变异或突变如何影响调节基因的广泛生物过程,解读人类基因组中那些难以理解的“暗物质”,并在基因调控预测领域树立了新的标杆。
破解生命说明书中的“乱码”
如果把生命比作一场精密运转的交响乐,那么基因组就是它的总乐谱。这套由约30亿个DNA“字母”(碱基对)写成的指令,几乎决定了生物体的一切——从外貌、功能到生长与繁衍。
然而,这部“生命之书”并非一目了然。科学家早已知道,基因组中只有约2%的段落直接编码蛋白质,被称为“编码区”,剩下的98%——也就是所谓的“非编码区”——曾被认为是“垃圾DNA”。但近年来研究发现,这些区域实际上是调控基因表达的“指挥中心”,许多与疾病相关的基因变异都隐藏在这里。
但我们如何读懂这些看似杂乱无章的非编码段落?当某个DNA字母发生微小改变时,它究竟会如何影响基因的表达,甚至导致疾病?
这正是AlphaGenome试图解决的问题。
AlphaGenome,基因的“AI翻译官”
AlphaGenome的核心能力,可以概括以下几点:
1. 长文本处理:一次解读百万序列
与以往模型只能分析短片段不同,AlphaGenome可以一次性处理长达100万个DNA的序列。这使它能够捕捉到距离基因很远的调控元件——就像阅读理解时,不仅能看懂一句话,还能联系上下文甚至整章内容。
2. 高精度预测:看清每一个“字母”
它不仅能处理长序列,还能以单个碱基的分辨率做出预测。这意味着它能识别出基因组中极其微小的变化——就像在整本书中找到并理解一个错别字的意义。
3. 多任务统一:从结构到功能的全面洞察
AlphaGenome可以同时预测数千种分子特性,例如:
这些预测基于来自ENCODE、GTEx等大型公共数据库的实验数据,涵盖数百种人类和小鼠细胞类型,为模型提供了坚实的生物学基础。
为什么它能做到前人未及之事?
AlphaGenome的架构融合了卷积神经网络(用于捕捉局部模式)和Transformer(用于全局上下文理解),最后通过多层网络将学到的模式转化为不同任务的预测。
值得关注的是其效率:训练一个完整的AlphaGenome模型仅需4小时,计算资源仅为前代模型Enformer的一半。这得益于团队在算法和分布式训练上的优化,实现了长序列与高分辨率的“鱼与熊掌兼得”。
此外,AlphaGenome与此前发布的AlphaMissense(专注于蛋白质编码区变异)形成互补,共同覆盖了编码区与非编码区,构建了更完整的基因组解读体系。
在基准测试中,AlphaGenome展现出令人印象深刻的能力:
在单序列预测任务中,24项评估中有22项优于现有最佳模型
在变异效应预测任务中,26项评估中有24项匹配或超越顶尖模型
它是唯一能够联合预测所有被评估任务的模型,凸显了其通用性
尤其值得注意的是其在RNA剪接位点建模上的创新——这是许多罕见遗传病(如脊髓性肌萎缩症)的关键机制。AlphaGenome首次能够直接从DNA序列中明确预测剪接位点的位置和表达水平,为理解剪接相关疾病提供了新工具。
AlphaGenome的应用
1. 疾病机制解析
团队已用AlphaGenome成功复现了T细胞急性淋巴细胞白血病中一个已知的致病机制:预测出特定非编码变异会通过引入MYB结合基序,异常激活TAL1基因。这表明它在发现“变异—调控—疾病”链条中具有潜力,尤其适用于研究那些效应大但罕见的孟德尔遗传病变异。
2. 合成生物学设计
未来,研究人员或可利用其预测来设计具有特定调控功能的合成DNA序列——例如,设计一个只在神经元中激活、而在肌肉细胞中保持沉默的基因开关。
3. 基础研究加速
它可以帮助绘制基因组中的功能元件图谱,识别调控特定细胞类型的关键DNA指令,加速我们对基因组逻辑的根本理解。
正如伦敦大学学院的Marc Mansour教授所说:“确定不同非编码变异的相关性极具挑战性,尤其是在大规模分析中。这个工具将提供关键的一环,帮助我们更好地理解癌症等疾病。”
局限与未来
尽管前景广阔,DeepMind团队也清醒指出了AlphaGenome的当前局限:
1.对极远距离调控元件(如超过10万个碱基距离)的影响捕捉仍具挑战
2. 对细胞和组织特异性模式的建模能力有待进一步提升
3. 模型未针对个人基因组预测进行设计或验证,不适用于直接临床诊断
4.它主要预测分子层面的结果,而复杂性状或疾病还涉及发育、环境等更广泛的生物学过程
AlphaGenome目前仅通过API提供非商业研究用途,其预测仅供科研参考,尚未进行临床验证。
目前。DeepMind已开放AlphaGenome API的访问权限,并建立了社区论坛,邀请全球研究人员提出用例、分享反馈。他们承诺将与学术界、产业界和政府部门合作,确保这项技术能惠及更多人。
AlphaGenome的出现,标志着基因组学AI模型从“单项专家”向“通用翻译官”的重要转变。它首次在一个模型中统一了长程上下文理解、碱基级精度和跨任务的最优性能。
尽管前路仍有不少挑战,但AlphaGenome无疑为我们提供了一把更精细的钥匙,去解锁基因组中那些尚未读懂的章节——不仅为了理解疾病,也为了更深刻地理解生命本身如何被书写、阅读与调控。
参考资料
AlphaGenome: AI for better understanding the genome.