Science | 小脑演化:破解隐藏在DNA序列中的演化“语法”

问AI · 小脑演化语法为何能跨越亿年保持稳定?

引言

大脑的演化一直被视为自然界最宏大的叙事之一,而坐落在脑后部的小脑(Cerebellum),其演化历程同样波澜壮阔。尽管小脑在解剖结构上相对恒定,但在功能上,它已从最初的运动控制中心,演变为参与认知、语言和社交处理的关键枢纽。

研究人员一直在思考:在解剖结构看似稳定的背后,究竟是什么分子机制驱动了小脑功能的阶跃?
1月29日,《Science》的研究报道“The evolution of gene regulation in mammalian cerebellum development”,为我们揭示了这一谜题的核心。
图片

这项工作不仅建立了一个横跨六个哺乳动物物种、包含约780,000个单细胞概况(Single-cell profiles)的宏大图谱,更巧妙地引入了深度学习(Deep learning)模型。研究人员发现,尽管具体的顺式调控元件(Cis-regulatory elements, CREs)在漫长的演化中更迭极快,但决定细胞命运的监管语法”(Regulatory grammar)却跨越1.6亿年保持了惊人的稳定。这种变化中的恒定,不仅让我们看清了人类小脑为何特殊,也为我们理解基因组序列如何通过调控网络编写生命蓝图提供了全新的框架。

跨物种图谱:找寻小脑发育的时间坐标

要理解演化,首先需要构建对比的坐标系。研究人员选取了人类(Human)、倭黑猩猩(Bonobo)、恒河猴(Macaque)、普通狨猴(Marmoset)、小鼠(Mouse)以及短尾负鼠(Opossum)这六种具有代表性的哺乳动物。这组物种跨越了从灵长类近亲到1.6亿年前分化的有袋类动物,为观察演化深度提供了极佳的跨度。研究的核心在于单细胞核转录组测序(Single-nucleus RNA-sequencing, snRNA-seq)与单细胞核转座酶可及染色质测序(Assay for transposase-accessible chromatin sequencing, snATAC-seq)的结合。

通过这种多组学(Multiomics)分析,研究人员在780,000个细胞中识别出了完全一致的细胞类别,包括浦肯野细胞(Purkinje cells)、颗粒细胞(Granule cells)以及各类神经祖细胞。然而,静态的分类是不够的,发育是一个动态过程。为了使不同物种的发育时间线具有可比性,研究人员采用了动态时间规整(Dynamic time warping)算法。这种算法根据细胞组成、基因表达和染色质可及性(Chromatin accessibility)等指标,将不同物种的发育阶段精准对齐。

在这个对齐的过程中,一个重要的发现浮出水面。数据清晰地显示,在人类谱系中,胎儿期的浦肯野细胞(Fetal Purkinje cells)相对于其他细胞类型的比例显著增加。通过与狨猴数据的对比,研究人员确定这一扩张发生在过去4000万年内。相比之下,狨猴、小鼠和负鼠的浦肯野细胞比例高度相似。这意味着人类小脑在发育早期就通过改变细胞产出的配比,实现了某种形式的演化创新。这种细胞比例的巧妙调整,或许正是人类复杂运动协调和认知功能提升的生物学基础。

调控网络:在序列更迭中寻找恒定的“核心”

在演化的进程中,基因本身的变化往往滞后于调控序列的变化。研究人员发现,顺式调控元件(CREs)的周转速度极快。以人类为基准,只有约25%的调控元件能在1.6亿年前的负鼠中找到同源序列。这种快速的序列流变,让传统的研究方法难以捉摸演化的脉络。然而,当研究人员利用SCENIC+算法推断基因调控网络(Gene regulatory networks, GRNs)时,情况发生了变化。

研究人员在人类、狨猴和小鼠中识别出了大约200到250个稳健的调控子(Regulons),即由特定转录因子(Transcription factors, TFs)及其目标元件构成的调控单元。令人惊讶的是,尽管具体的元件位置在变,但核心转录因子的活性却高度保守。数据显示,在共享的转录因子中,跨物种的活性相关性系数(Pearson's r)高达0.78至0.88。这些核心转录因子包括决定颗粒细胞身份的ATOH1和PAX6,以及决定星形胶质细胞身份的SOX2和HES1。

更深入的分析表明,越是处于网络中心位置(Network centrality)的转录因子,其功能越保守。研究人员观察到,调控层的保守性呈现出明显的等级性:转录因子与目标基因的链接最保守,其次是元件与基因的链接,而转录因子与元件的直接结合位点变化最快。这说明,演化倾向于在微观层面通过不断的序列实验来维持宏观层面的功能稳定。这种“冗余驱动的鲁棒性”让我们思考:生命是否通过调控元件的快速更替,来缓冲有害突变并探索新的适应空间?

监管语法:DNA序列中的逻辑硬编码

如果具体的调控序列在变,为什么相同的转录因子总能找到新的位置来实现相同的功能?研究人员推测,DNA序列中一定存在某种不依赖于特定位置的“逻辑代码”。为了验证这一假设,他们利用非负矩阵分解(Non-negative matrix factorization, NMF)将人类和小鼠的调控元件映射到18个“程序”(Programs)中。每个程序代表了一种特定的时空访问模式。

分析显示,即使是那些非同源的(Non-orthologous)元件,只要它们属于同一个调控程序,它们所携带的转录因子结合基序(TF motifs)组合就惊人地一致。例如,在早期祖细胞(Progenitors)相关的程序中,SOX和RFX基序总是成对出现;而在颗粒细胞分化相关的程序中,bHLH(如ATOH1)和NFI基序则构成了核心特征。

研究人员将这种基序的特定组合与排列逻辑称为“监管语法”(Regulatory grammar)。为了量化这种语法,他们开发了一个名为DeepCeREvo(Deep learning of cerebellar regulatory evolution)的深度学习模型。这个模型能够仅凭500 bp的DNA序列,预测该序列在特定小脑细胞类型中是否具有活性。DeepCeREvo在处理从未见过的序列时表现出了极高的准确性(auROC值通常超过0.85)。最令人震撼的证据在于:用人类数据训练的模型可以准确预测小鼠序列的活性,反之亦然。这证明了跨越1.6亿年的演化,底层逻辑——即哪种基序组合能开启哪个基因——却像“通用语言”一样被保留了下来。

历史重构:240种哺乳动物的演化轨迹

有了DeepCeREvo这个“翻译官”,研究人员不再局限于实验室里的几种物种。他们将视野扩展到了Zoonomia计划中的240种哺乳动物基因组。通过将人类的554,237个调控元件序列映射到这240个物种的同源区域,并利用DeepCeREvo预测它们的活性,研究人员重构了人类小脑调控元件的演化历史。

结果显示,约11.6%的人类小脑元件可以被明确地分配到特定的演化节点。其中,有3018个元件被确定为人类特有(Human-specific),它们在过去650万年间才获得了调控活性。而约有数十万个元件被鉴定为真兽类(Eutherian)保守元件,它们在超过1亿年的时间里始终保持着功能。

为了验证这些历史推断的可靠性,研究人员进行了巧妙的实验验证。他们选择了5个预测为真兽类共享的元件和12个预测为近期出现的元件,在小鼠原代颗粒细胞中进行了荧光素酶报告基因检测(Luciferase reporter assays)。实验数据证实,那些预测历史久远的元件确实表现出了更强且更稳定的增强子(Enhancer)活性。更令人兴奋的是,一个位于P4HA3基因内的内含子元件,被预测为大猿(Great ape)特有。实验结果显示,该序列在人类、黑猩猩和倭黑猩猩中均有活性,但在大猩猩及更远缘的物种中则完全丧失了活性。

正向选择:人类特有元件的演化动力

为什么这些人类特有的调控元件会被保留下来?研究人员利用来自五个非洲人群的遗传多样性数据,评估了这些序列所受到的选择压力。对于那些在亿万年间保守的真兽类元件,其核苷酸位点都表现出强烈的负向选择(Negative selection)。然而,在人类特有的元件中,那些对模型预测贡献最大的核心核苷酸位点,表现出了明显的正向选择(Positive selection)信号

这意味着,这些位点并不是随机积累的突变,而是在自然选择的驱动下,为了获得新的调控活性而被筛选出来的。例如,在小胶质细胞(Microglia)中,一个名为HAQER0223的快速演化区域,通过一次关键的人类特有取代,创造出了一个新的ETS结合基序,从而获得了人类特有的调控活性。这种从无到有的创新,正是演化在基因组尺度上进行“发明创造”的明证。

THRB基因:一个关于基因表达“阶跃”的案例

在所有的演化创新中,最令人瞩目的是那些导致基因表达模式彻底改变的事件。研究人员在人类小脑发育程序中识别出了1339个表达水平显著高于小鼠的基因。其中,甲状腺激素受体β(THRB)的案例最具启发性。

THRB在人类谱系中获得了一个全新的表达领域:早期祖细胞(Early progenitors)。研究显示,THRB的目标基因在人类早期祖细胞中显著富集,尤其是那些在过去2500万年内表达水平上调的基因(Fisher's exact $P = 0.00018$, 优势比 $OR = 9.01$)。

研究人员在THRB转录起始位点上游 3 kb 处发现了一个关键的调控单元。序列分析发现,在类人猿亚目(Catarrhines)的祖先中,该区域通过一系列微小的核苷酸替换,巧妙地构建了两个规范的SOX2结合基序(CATTGT)以及一个变体位点(CATTCT)。这些基序在类人猿物种中表现出了极高的序列守恒性。这个案例生动地展示了:2500万到40000万年前发生的几次关键突变,如何引发了一个核心转录因子的表达移位,并最终级联影响了整个发育调控网络。

在周转与保守之间

这项研究通过对小脑演化的全景式扫描,揭示了生命演化的一种基本策略:底层逻辑的稳固与表层元件的灵动。小脑之所以能演化出复杂的创新,并不是因为人类发明了全新的蛋白质,而是因为我们巧妙地利用了那套保守了1.6亿年的“监管语法”,在基因组的空隙中编写出了新的调控脚本。

这种对“语法”的洞察,也改变了我们看待突变的方式。无论剧本如何变幻,那套书写生命的“语法”始终指引着演化的方向。它让我们对生命的多样性心生敬畏,也让我们对破解生命最终奥秘的未来充满了好奇与思考。在周转不息的序列与永恒不变的逻辑之间,我们终于开始触碰到演化最核心的巧妙所在。




参考文献


Sarropoulos I, Sepp M, Yamada T, Schäfer PSL, Trost N, Schmidt J, Schneider C, Drummer C, Mißbach S, Taskiran II, Hecker N, Bravo González-Blas C, Frömel R, Joshi P, Leushkin E, Arnskötter F, Leiss K, Okonechnikov K, Lisgo S, Palkovits M, Pääbo S, Cardoso-Moreira M, Kutscher LM, Behr R, Pfister SM, Aerts S, Kaessmann H. The evolution of gene regulation in mammalian cerebellum development. Science. 2026 Jan 29;391(6784):eadw9154. doi: 10.1126/science.adw9154. Epub 2026 Jan 29. PMID: 41610256.