Nature Biotechnology | 如何解码非编码区的“基因组暗物质”？

生物探索

2025-01-05 15:30发布于江苏科学领域创作者

全文6670字，阅读约需20分钟，帮我划重点

划重点

01Nature Biotechnology研究报告了一种名为GPN-MSA的新型DNA语言模型，能够更准确地预测基因组变异的功能效应。

02GPN-MSA基于多物种比对设计，结合灵活的Transformer架构，可在高效解析非编码区功能变异方面展现强大潜力。

03与传统模型相比，GPN-MSA在编码区与非编码区均展现出显著优势，为解析复杂的基因组变异提供了更准确的工具。

04然而，GPN-MSA在处理人类特异区域和快速进化区域时仍存在局限性，未来改进方向需关注多源数据的融合与模型架构的优化。

05GPN-MSA的成功将为精准医学和疾病诊断等领域发挥更加深远的影响。

以上内容由腾讯混元大模型生成，仅供参考

引言

近年来，基因组学领域取得了飞速发展，尤其是全基因组测序（Whole Genome Sequencing, WGS）的普及，使得研究人员能够全面分析人类及其他物种的基因组数据。然而，人类基因组中约98%的区域为非编码区（Noncoding Regions），它们的功能与变异效应一直是遗传学研究中的重大难题。这些区域不仅复杂且充满重复序列，其可能存在的生物学作用对罕见疾病的诊断与精准医学的发展具有重要意义。

在这一背景下，预测基因组变异（Genome-wide Variants）对功能的潜在影响成为关键。然而，传统的保守性评分（Conservation Scores）虽然在某些情况下表现良好，但往往难以充分捕捉非编码区的复杂性。随着机器学习技术的进步，语言模型（Language Models）因其能够从大规模序列数据库中无监督学习的特点，开始成为预测基因变异效应的重要工具。例如，蛋白质语言模型已成功应用于错义突变（Missense Variants）的功能预测。然而，DNA语言模型在处理人类基因组等复杂的基因组时，仍存在显著局限。

为解决上述问题，1月2日Nature Biotechnology的研究报道”A DNA language model based on multispecies alignment predicts the effects of genome-wide variants“，研究人员开发了一种基于多物种比对（Multiple Sequence Alignment, MSA）的新型DNA语言模型——GPN-MSA（Genomic Pretrained Network with Multiple Sequence Alignment）。该模型以灵活的Transformer架构为基础，结合100种脊椎动物的全基因组比对信息，能够更准确地预测编码区和非编码区的变异功能效应。通过在多个临床数据库（如ClinVar、COSMIC和OMIM）、实验功能检测以及人群遗传学数据上的测试，该模型表现出了优异的预测能力。与目前主流的模型相比（如CADD和phyloP），GPN-MSA不仅在精确性上表现卓越，还显著降低了计算成本，仅需几小时即可完成训练。

这一研究的突破性成果不仅为罕见疾病的诊断提供了更可靠的工具，还为非编码区变异的解析铺平了道路。这将对精准医学的发展和人类遗传学的基础研究产生深远影响。

破解基因密码：探索DNA语言的奥秘

在人类基因组浩瀚的“文字”中，编码基因仅占约2%，而其余98%为非编码区（Noncoding Regions）。这些非编码区长期被称为“基因组暗物质”，其功能难以捉摸，但其重要性正在被逐步揭示。这些区域不仅在调控基因表达中扮演关键角色，还与多种遗传疾病和复杂性状密切相关。然而，这些区域充满重复序列、进化特异性和功能多样性，使得解析其中的遗传变异（Variants）成为基因组学研究的一大挑战。

随着全基因组测序技术的发展，人类基因组中的所有变异得以被全面识别。然而，如何预测这些变异的生物学意义，却是精准医学发展的核心瓶颈。例如，罕见遗传病的诊断往往依赖于变异的功能预测。然而，传统的基因组分析方法在解析非编码区变异时存在显著局限。仅基于保守性评分的简单模型难以捕捉这些区域的复杂生物学特性。这种挑战在近年来的研究中愈加凸显：在人类基因组中，非编码区的序列不仅多样，还受到强烈的进化压力，这使得传统的算法在识别功能变异时显得力不从心。

DNA语言模型的出现为这一难题带来了新的曙光。这类模型能够通过对大规模序列数据的无监督学习，捕捉序列中的潜在信息。然而，传统的DNA语言模型在处理复杂的全基因组数据时依然面临挑战。研究显示，某些模型在高性能计算平台上耗费近一个月时间仍未能达到理想的预测效果。因此，如何设计一种高效、精准的DNA语言模型，成为破解基因组密码的关键所在。

GPN-MSA的出现，为这一问题提供了一种全新的解决方案。基于多物种比对的设计理念，结合灵活的Transformer架构，这一模型在高效解析非编码区功能变异方面展现出了强大潜力。

GPN-MSA的诞生：灵感与突破

GPN-MSA的核心设计理念是将多物种比对（Multiple Sequence Alignment, MSA）引入DNA语言模型中。传统的DNA语言模型，如Nucleotide Transformer和CADD等，通常基于单物种序列，无法充分利用进化过程中积累的信息。而GPN-MSA通过整合100种脊椎动物的全基因组比对数据，不仅捕捉到了序列的上下文信息，还结合了不同物种间的进化约束和保守性特征。这一设计思路受到了蛋白质语言模型MSA Transformer的启发，但针对基因组的特殊性进行了多项优化。例如，GPN-MSA的输入为128碱基对（bp）的窗口，每个位置的上下文信息不仅来自序列内的邻近碱基，还包括其他物种在相应位置上的比对结果。这种多维信息的整合，使模型在预测变异效应时更为精准。

多物种比对在GPN-MSA中发挥了关键作用。它能够通过分析比对列（Columns）的保守性，识别潜在的功能重要区域。例如，GPN-MSA对非编码区变异的预测准确性显著优于传统模型，这是因为多物种比对能够揭示这些区域的进化压力和潜在功能。此外，为避免过度依赖与人类基因组过于相似的物种（如灵长类动物），模型特意剔除了与人类亲缘关系最近的10种灵长类物种的数据，从而提升了对非保守区域的泛化能力。

通过结合MSA的设计，GPN-MSA在性能和效率上实现了双重突破：相比其他模型需要耗费数十天的训练时间，GPN-MSA仅需3.5小时便能完成。这不仅降低了计算成本，也为基因组学研究的广泛应用提供了可能性。

多物种比对的威力：从序列中挖掘功能密码

在基因组进化的过程中，DNA序列的保守性（Conservation）成为识别功能关键区域的重要线索。多物种比对（Multiple Sequence Alignment, MSA）通过将多个物种的基因组序列对齐，揭示了在自然选择压力下保留下来的关键片段。这些片段通常承载着重要的生物学功能。与单物种序列分析相比，MSA能够更全面地反映序列的功能重要性和潜在变异影响，这是GPN-MSA模型得以高效预测变异效应的核心原因。

MSA的强大之处在于其能够从多维度提供信息支持。通过比较100种脊椎动物的基因组比对数据，GPN-MSA不仅识别出高度保守的序列区域，还能捕捉到进化过程中微妙的功能变化。例如，在基因组的非编码区域，即使某些序列在单一物种中看似无关紧要，但如果它们在不同物种中长期保留，这就暗示其可能具有调控功能。GPN-MSA利用这些比对列信息，在预测非编码区变异效应时展现出了远超传统模型的精准性。

GPN-MSA模型通过引入MSA中的上下文信息，显著提升了预测能力。模型的输入为128碱基对（bp）的窗口，每个位置不仅包含目标序列的人类DNA数据，还包含其他物种在相应位置上的比对结果。模型通过Transformer架构处理这些多维信息，捕捉序列间的潜在关联。例如，在功能重要但非保守性突出的区域，GPN-MSA能够通过分析多物种的序列变化趋势，识别潜在的调控或致病性变异。

此外，GPN-MSA的训练策略充分利用了MSA的优势。通过选取保守性排名前5%的窗口以及少量随机窗口，模型能够兼顾功能区域和非功能区域的学习。这种设计不仅使模型在训练过程中聚焦于生物学上重要的区域，还避免了对单一特征的过度拟合，从而提升了对未见变异的预测能力。

GPN-MSA背后的黑科技

GPN-MSA的核心架构是基于Transformer的深度学习模型，它通过整合多物种比对（MSA）信息，展现了在基因组变异效应预测中的卓越性能。Transformer架构以其强大的特征提取能力闻名，其关键特性——自注意力机制（Self-attention Mechanism），使模型能够高效捕捉序列中远程依赖关系，为基因组数据的处理提供了理想的框架。

在模型设计上，GPN-MSA的输入数据包括从多物种比对中提取的128碱基对（bp）窗口。每个窗口不仅包含人类DNA序列，还整合了其他物种在对应位置的比对列信息。这些序列被转换为高维的上下文嵌入（Contextual Embeddings），通过Transformer的多层网络逐步处理，最终输出被屏蔽位置的核苷酸概率分布。在训练阶段，15%的位置被随机屏蔽，模型通过学习上下文信息来预测这些位置的碱基。这种基于掩码语言模型（Masked Language Model, MLM）的训练方式使模型能够高效学习变异位置的潜在影响。

GPN-MSA的训练数据选择经过精心设计，以确保功能重要区域的覆盖和数据分布的平衡。研究团队从脊椎动物的全基因组比对中挑选出保守性排名前5%的窗口作为训练重点，同时加入少量随机窗口（约占0.1%），以增强模型对非保守区域的泛化能力。此外，为避免过度依赖与人类基因组相似的物种，数据中剔除了10种最接近人类的灵长类物种。

参数优化策略也是GPN-MSA成功的关键之一。模型采用加权交叉熵损失函数（Weighted Cross-Entropy Loss），通过对保守区域赋予更高权重，确保模型在训练过程中关注功能重要的变异位置。此外，在非保守区域，引入随机替换核苷酸的策略，进一步提高模型在非功能区域的预测鲁棒性。

相比传统模型，GPN-MSA的效率显著提升，仅需3.5小时即可完成训练。

变异效应预测（VEP）结果解析（Credit: Nature Biotechnology）

a. 不同变异类型的GPN-MSA评分分布

研究在保留的22号染色体区域中，分析了变异类型特异性分布，其中比对列（MSA columns）在89种非人类物种中保持完全保守（无变异）。结果显示，功能破坏性较大的变异（例如终止密码突变和拼接位点变异）得分更高，表明GPN-MSA能够有效区分不同类型的变异。

b. 平均次要等位基因频率（MAF）与评分分位数的关系

在gnomAD双等位位点数据集中，不同评分分位数范围（如[0, 10⁻⁶）、(10⁻⁶, 10⁻⁵]）的平均MAF被分析。结果表明，高GPN-MSA评分的变异（即预测对功能影响更大的变异）倾向于具有更低的MAF，这与稀有变异通常受净化选择影响的理论一致。

c. ClinVar数据库致病变异与gnomAD常见错义变异的分类

GPN-MSA对21,273个ClinVar致病错义变异和15,402个gnomAD常见错义变异进行了分类，表现优于传统模型（如Nucleotide Transformer），展现了卓越的区分能力。

d. ClinVar致病变异与ClinVar良性变异的分类

在21,275个ClinVar致病错义变异与26,993个ClinVar良性变异之间的分类中，GPN-MSA的表现同样优异，进一步验证了其预测能力。

e. COSMIC常见体细胞变异与gnomAD常见错义变异的分类

在183个COSMIC中频率大于0.1%的体细胞错义变异与15,399个gnomAD常见错义变异的分类任务中，GPN-MSA依然表现出领先的预测能力。

f. OMIM致病变异与gnomAD常见调控变异的分类

研究将OMIM数据库中的启动子、增强子等调控区致病变异与gnomAD常见变异进行分类。GPN-MSA在多个调控区分类中均表现出高精确性和可靠性，充分展现了其对非编码区功能变异的解析能力。

g. 稀有变异（单倍变异）与常见变异在高评分区域的富集

通过单倍变异（singleton，MAF<0.01%）与常见变异（MAF>5%）在高预测评分区域的富集分析，结果显示稀有变异显著富集于GPN-MSA高评分尾部，这表明模型能够准确识别具有高功能影响的稀有变异。

h. 基因重要性分类（DepMap数据）

基于DepMap癌症依赖性数据，研究对508个重要基因（在超过1000个细胞系中关键）与2,815个非重要基因（在任何细胞系中均不依赖）的分类表现进行了评估。GPN-MSA相比其他变异效应预测模型表现更佳，证明其在基因功能水平上的预测能力。

精准预测：模型的性能如何改变现状

GPN-MSA以其卓越的预测能力重新定义了基因组变异效应预测的标准。与传统方法相比，它在编码区与非编码区均展现出显著优势，为解析复杂的基因组变异提供了更准确的工具。

在临床数据库（如ClinVar）中，GPN-MSA针对错义突变（Missense Variants）的分类表现明显优于传统模型。与参数最多的Nucleotide Transformer相比，GPN-MSA的受试者工作特征曲线下面积（AUROC）显著提升。此外，针对肿瘤中常见的体细胞突变（COSMIC数据库），GPN-MSA的平均精确率-召回率曲线面积（AUPRC）高出其他模型一大截，尤其是在数据极度不平衡的情况下，其精确率表现依旧稳健。这些结果表明，GPN-MSA能够有效处理编码区变异，并优于CADD、phyloP等目前广泛使用的模型。

在非编码区预测方面，GPN-MSA的表现尤为突出。通过对多个实验数据集（如DepMap基因依赖性数据）的分析，研究发现，GPN-MSA在识别调控元件变异（例如启动子和增强子区域）方面表现优异。它不仅能够准确区分功能性突变与中性变异，还在部分挑战性场景（如低频变异的富集分析）中展现了卓越能力。在全基因组分析中，GPN-MSA对稀有变异的富集预测比phyloP和CADD等方法更为精确，其识别能力强劲且稳定。

值得注意的是，GPN-MSA的评分更倾向于识别潜在的功能重要变异。例如，对于具有显著进化压力的保守区域（如位于非编码区的增强子），GPN-MSA能够通过高分辨率地解析序列上下文，识别致病变异。在功能性变异如终止密码突变（Stop-gain Mutations）或拼接位点变异（Splice-site Mutations）的预测中，GPN-MSA的预测分数与变异的破坏性程度高度相关，这一特性在许多临床相关场景中具有重要应用价值。

模型的局限与改进方向

尽管GPN-MSA在基因组变异预测中展现了卓越能力，但其应用仍存在一些局限性，尤其是在处理人类特异区域（Human-Specific Regions）和快速进化区域时。这些区域往往包含对物种独有的重要功能序列，但由于与其他物种缺乏比对参考，其功能特性难以被GPN-MSA充分捕捉。此外，模型过度依赖进化保守性，可能忽视某些在人类特异区域中快速演化但功能关键的变异，从而限制了其在特定场景下的表现。

另一个需要关注的问题是，GPN-MSA对多物种比对的依赖可能在处理复杂或难以对齐的基因组区域时表现不足。例如，非编码区域中存在大量的重复序列或结构变异，这些特性在标准比对框架中难以被准确建模。此外，模型在功能区域的覆盖中主要聚焦于高保守性窗口，这虽然提升了预测精度，但可能遗漏了部分低保守但功能重要的区域。

针对这些局限性，未来的改进方向可能需要关注多源数据的融合与模型架构的优化。将功能基因组学数据（如表观遗传标记、转录因子结合位点）与GPN-MSA的预测结果相结合，有望增强对非保守区域功能变异的解析能力。例如，在预测基因调控元件变异时，引入数据驱动的功能注释可能提供更全面的信息支持。此外，结合种群遗传学数据，将频率信息与进化保守性整合，也可进一步提升对稀有变异的致病性预测。

在模型架构方面，扩展当前的Transformer框架以支持更长的上下文窗口可能是一个重要方向。通过引入更灵活的注意力机制，模型或可在捕捉全局基因组信息的同时保留对局部序列的细粒度解析能力。此外，开发能够显式建模进化关系的新训练目标（如基于系统发生树的约束）也将提升模型的泛化能力。

开启基因组学的新篇章

GPN-MSA的诞生标志着基因组学研究的一个重要转折点。这一创新模型突破了传统方法在非编码区变异解析中的瓶颈，为全面解读基因组中的功能密码提供了强有力的工具。从模型架构到实际应用，GPN-MSA展示了其在预测基因变异功能效应方面的巨大潜力，尤其是在精准医学和疾病诊断中的应用前景，为未来的发展奠定了坚实基础。

相比传统方法，GPN-MSA的显著优势在于其对多物种进化信息的高效整合。通过捕捉序列间的保守性和进化约束，GPN-MSA不仅在编码区变异预测中表现卓越，更为非编码区功能变异的解析打开了新的视角。这一模型的成功，彰显了多物种比对与深度学习结合的巨大潜力，为解决基因组复杂性问题提供了新思路。同时，通过对计算资源的优化，GPN-MSA实现了在高效性和高性能之间的平衡，这为基因组研究的可持续发展提供了重要的技术支持。

未来，GPN-MSA的意义不仅局限于当前的基因变异预测领域。它为更多元数据的整合与分析提供了参考范例，特别是在结合功能基因组学、种群遗传学和表观遗传学数据方面，具有广阔的应用潜力。此外，随着技术的不断进步，GPN-MSA的框架还可以进一步扩展，用于探索基因组的未知区域，揭示更多影响人类健康和疾病的奥秘。

GPN-MSA不仅是一项技术突破，更是一种方法论的革新。它向我们展示了如何将先进的算法与深厚的生物学知识结合，以应对复杂的科学问题。随着这一技术的应用范围不断扩大，我们有理由相信，它将在推动基因组学基础研究、疾病机制解析和精准医疗等方面发挥更加深远的影响。

参考文献

Benegas G, Albors C, Aw AJ, Ye C, Song YS. A DNA language model based on multispecies alignment predicts the effects of genome-wide variants. Nat Biotechnol. 2025 Jan 2. doi: 10.1038/s41587-024-02511-w. Epub ahead of print. PMID: 39747647.

责编|探索君

查看原图 182K