穿梭两年的追踪:表观遗传的“长情”告白
要研究“寿命”,首先需要漫长的时间跨度。在过去的常规研究中,观察窗口往往局限在几周到几个月,这无法真正触及长期组织适应性的本质。在这项研究中,研究人员选择小鼠的表皮干细胞 (epidermal stem cells, EpdSCs) 作为模型。他们通过在小鼠背部皮肤连续6天涂抹咪喹莫特 (imiquimod, IMQ),诱发了一种类似银屑病的急性炎症,随后停止刺激,让组织自然消退,并开始了长达两年的追踪观察。两年,基本上涵盖了小鼠的整个自然生命周期。
通过对不同时间点(第6天、第30天、半年、1年、1.5年、2年)纯化的表皮干细胞进行高通量染色质可及性测序 (ATAC-seq),数据呈现出了令人着迷的动态变化。在急性炎症的巅峰期(第6天),大约有40,000个染色质结构域被强制打开。当炎症在第30天消退,病理学和整体转录水平恢复平静时,仍有约1000个区域保持着开放状态,这些被称为“记忆结构域 (memory domains)”。
然而,时间是残酷的滤网。在接下来的一年里,这1000个记忆结构域的整体开放程度在稳步下降,大部分表观遗传适应性被逐渐侵蚀。但是,当时间来到第1年 (Y1) 并继续向第2年 (Y2) 推进时,整体的开放度稳定了下来。这暗示着,有一小部分极其坚韧的区域抵御住了时间的洗礼。
为了深入剖析这种差异,研究人员从最初的934个核心记忆结构域中,精准地筛选出了两组极具代表性的亚群:一组是117个“长效记忆结构域 (long-term memory domains)”,它们在第1年甚至第2年依然保持着强健的开放状态;另一组是同样数量的117个“短效记忆结构域 (short-term memory domains)”,它们在第30天时虽然开放,但在第1年时已经回落到接近未受刺激的初始水平。
这种长效记忆绝非毫无意义的分子遗迹,它赋予了组织真实的生存优势。在功能层面,衰老小鼠(1岁)的正常皮肤在应对创伤时,其上皮再生的速度比年轻小鼠下降了约40%。令人惊叹的是,那些在年轻时经历过急性炎症的小鼠,其衰老的皮肤在面对同样的创伤时,展现出了宛如年轻态的愈合能力。
这种能力的根源,正是那些长效记忆结构域所锚定的基因。在二次创伤后12小时内,有62个转录本在经历过炎症的表皮干细胞中表现出更快速的响应。其中,超过三分之一的基因与炎症记忆结构域紧密相连。例如,长效记忆基因Aim2(一种炎症小体效应物)、Il18(炎症细胞因子)以及Rnase2b等。在面对另一种继发性化学应激 (TPA) 时,这种差异更为显著:短效记忆相关基因(如Cdhr1, Cyp7b1)的敏捷响应在第1年时已经衰退,但长效记忆基因即便在炎症过去两年后,依然保持着高度的超敏状态。整个长效记忆队列在应对继发应激时,能够广泛且迅速地重新招募应激转录因子c-FOS。
排除嫌疑人:并非特权细胞的专利
面对如此顽强的记忆,一个自然的推测是:这种表观遗传的持久性,是否仅仅存在于那些极少分裂的休眠干细胞中?或者,它们是否被藏匿在某种受特殊微环境保护的局部生态位 (niche) 里?毕竟,细胞的每一次分裂,都是对表观遗传标记的一次大洗牌。
为了验证这一假设,研究人员采用了单细胞水平的染色质可及性测序 (scATAC-seq) 和单细胞RNA测序 (scRNA-seq)。考虑到单细胞ATAC数据的稀疏性,他们巧妙地运用了SEACells算法,将大约75个高度相似的单细胞聚合成一个“元细胞 (metacell)”,在极大地提升信噪比的同时,完好地保留了单细胞维度的分辨率。
通过对第30天(早期消退)和第1年(晚期消退)的数据进行分析,研究人员清晰地划分出了毛囊间表皮的未分化基底干细胞 (UB)、正在经历短暂分化的基底细胞 (DB) 以及上部毛囊开口处的干细胞 (uHF)。
结果出乎意料但又指向明确:转录组水平上,到第30天时,各个亚群的基因表达基本恢复了常态,这意味着并非是局部的微环境在持续发送异常信号。而在染色质可及性层面,无论是短期的第30天,还是长期的第1年,长效记忆结构域的持续开放现象在几乎所有的SEACell群体中都稳定存在。无论是处于不同分化阶段的细胞,还是身处不同解剖位置的干细胞,都同等地承载着这份记忆。
这意味着,短暂的急性炎症并非只“训练”了少数精英细胞,而是对几乎整个表皮干细胞群体进行了系统性的重塑。这些细胞在第30天时平均经历了约3.5次分裂,到第1年时已经经历了大约50次分裂。长效记忆并没有依附于罕见的不分裂细胞,而是真正拥有了一套能够跨越细胞世代、稳定遗传的维持机制。
启动与维持的剥离:经典的失效
既然排除了细胞层面的特权,研究人员将目光转向了分子层面。是否是因为在最初的炎症爆发期(第6天),长效记忆结构域被打开得更加彻底,结合了更多的转录因子,从而越过了某种阈值,获得了长期存活的“许可证”?
数据再次给出了否定的答案。在急性炎症达到顶峰时,长效和短效记忆结构域在染色质的开放程度上几乎没有任何差异,它们相关基因的转录激活水平也旗鼓相当。更关键的是,主导炎症记忆建立的核心转录因子——STAT3和由c-FOS/c-JUN组成的AP1复合物,在两组结构域上的结合强度难分伯仲。此外,标志着增强子活性的组蛋白修饰H3K4me1和H3K27ac,在急性期同样均匀地覆盖在这两类结构域上。在条件性敲除Stat3或抑制AP1的实验中,两组结构域的开放受阻程度也高度一致。
这些经典标志物完美地解释了记忆是如何“建立”的,却对记忆为何能“长寿”保持沉默。
为了探寻深层的原因,研究人员引入了ChromBPNet。这是一个能够在单碱基分辨率下,从原始DNA序列预测染色质可及性的深度学习框架。研究人员用第6天的ATAC-seq数据对其进行训练,该模型成功地从DNA序列中提取出了对预测开放度贡献最大的模式。不出所料,模型将AP1的结合基序排在了贡献榜的首位,证实了其在记忆建立中的核心地位。然而,即便是如此强大的算法,也未能发现AP1基序在长效和短效区域中有任何显著的权重差异。模型虽然还识别出了KLF、NFI等稳态转录因子的基序,但它们同样无法区分记忆的寿命长短。仅仅依靠少数如TP63或ELK/ETS家族的基序,其微弱的差异分布远不足以解释长效记忆的普遍存在。
这一发现提出了一个深刻的科学洞见:决定表观遗传记忆“启动”的语法,与决定其“维持”的语法,是两套截然不同的系统。寻找长寿密码,必须转换思路。
算法指路:预测“时间”的深度学习模型
既然静态的开放度无法提供线索,研究人员决定直接让算法去学习“时间”本身。他们开发了一个基于BPNet架构的全新深度学习模型——PersistNet。
与其预测某一个时间点的可及性,PersistNet被设计用来直接预测DNA序列与其可及性在时间长河中的“持久度”。研究人员构建了一个极其巧妙的数学指标:单碱基持久性得分 (persistence score)。这个得分是基于第1年 (Y1) 与第30天 (D30) 在同一碱基位置上ATAC-seq信号比值的反正切函数 (arctan)。使用同一区域的纵向比值,天然排除了序列组成和检测技术的局部偏差,纯粹地提取出了“随时间推移的稳定度”这一核心特征。
当用这个持久性得分对模型进行训练后,PersistNet展现出了惊人的洞察力。它从DNA序列中提取出了5个对预测记忆持久度贡献最大的从头 (de novo) 基序。与ChromBPNet关注炎症初期的AP1主导地位不同,PersistNet揭示了一套全新的生存语法。
除了依然占据一席之地的AP1(提示c-JUN在后期的持续驻留可能起到辅助作用),另外4个高度相关的序列模式,要么无法匹配到已知的转录因子,要么类似于ELK/ETS家族、NRF1和SP1等稳态转录因子的结合位点。更为关键的是,PersistNet所预测的这些持久性基序中,除AP1外,每一个具有统计学意义的序列都包含至少一个CpG二核苷酸。并且,在这个序列模型中,CpG所在的位置永远是对持久性预测贡献得分最高的单碱基节点。
模型中差异最显著的4号基序甚至无法匹配任何已知转录因子,其最突出的特征就是中心明确的CpG位点,而两侧的序列几乎是随机的。这就如同在黑暗的基因组宇宙中,算法捕捉到了一个最闪亮的信号灯:CpG。
顺藤摸瓜,研究人员抛开复杂的基序,直接计算了记忆结构域中的CpG密度。结果令人震撼:长效记忆结构域中的CpG密度显著高于短效记忆结构域,而其他任何二核苷酸组合都没有这种特性。不仅如此,在全部934个记忆结构域中,CpG的密度与第1年时的持久性得分呈现出完美的连续正相关:CpG含量越高,染色质开放状态的“寿命”就越长。
为了从纯逻辑层面验证这一预测,研究人员在计算机内部 (in silico) 进行了极具说服力的微扰实验。首先,他们在完全随机生成的虚拟DNA序列中,人为地插入各种二核苷酸。结果显示,只有单独插入“CG”,才足以让PersistNet模型预测该序列的持久性得分大幅跃升。并且,随着插入CG数量的增加,预测的持久性呈现出清晰的线性剂量反应。
更具戏剧性的是,研究人员拿出了真实世界中的长效记忆基因Aim2的调控序列。这个409bp长的结构域内仅仅点缀着6个CpG位点。在算法模拟中,研究人员像拔掉电源插头一样,逐个将这6个CG替换掉。随着CG位点的逐步缺失,该区域预测的持久性得分出现了平滑而明显的阶梯式下降。
至此,算法的指引明确无误:单纯的CpG二核苷酸密度,作为一种内在的序列特征,为表观遗传记忆的长治久安提供了物质基础。
甲基化的退潮与ETS1的乘虚而入
在哺乳动物基因组中,CpG二核苷酸往往与DNA甲基化紧密绑定。DNA甲基化通常意味着染色质的压实、转录因子的排斥以及基因的沉默。更为重要的是,DNA甲基化模式是已知能够在细胞分裂中被高度保真复制的表观遗传信息。
研究人员使用全基因组重亚硫酸盐测序 (WGBS) 绘制了整个过程的甲基化动态图谱。在未受刺激的初始状态下,长效记忆结构域的平均甲基化水平最高(约70%),短效记忆次之(约50%),而那些对炎症无反应的区域最低(约35%)。
然而,当急性炎症袭来(第6天)时,一场剧烈的“表观地震”发生了。所有的记忆结构域都经历了深刻的去甲基化,平均甲基化水平统一骤降至25-30%的低谷。其中,原本甲基化水平最高的长效记忆结构域经历了最剧烈的跌幅。
真正的分水岭出现在炎症消退之后。随着时间的推移,短效记忆结构域和最终关闭的区域开始逐渐恢复原有的甲基化水平。但是,长效记忆结构域却展现出了非凡的“抗复原”能力,即使在恢复正常生理稳态数年之后,它们依然顽固地维持着低甲基化状态。这与PersistNet模型的预测高度吻合:在模型中,CpG位点的甲基化状态与其对寿命的贡献度呈现强烈的负相关。
持续的去甲基化为细胞核内的一批特殊客人敞开了大门。我们前面提到,PersistNet预测出的决定持久性的序列,高度类似于ELK/ETS和NRF1的结合位点,而这些转录因子有一个共同的癖好:它们极其排斥甲基化的DNA,只偏爱裸露的CpG。
以ETS1为例,在正常稳态下,它在这些记忆区域毫无踪迹。但在炎症引发大规模去甲基化后,ETS1迅速且大量地结合到了这些区域。更精细的分析显示,在那些被PersistNet预测为对持久性有极高贡献的ELK/ETS基序所在位置,长效记忆结构域中的CpG在一生中都保持着去甲基化状态,从而为ETS1的持续结合提供了完美的停机坪;相反,短效记忆区域的对应位点则逐渐被重新甲基化,随之关闭。以长效记忆基因Aim2为例,其持续去甲基化的碱基位置,精准地对应了模型预测的最高持久性贡献位点,并且确切地发生了炎症诱导的ETS1结合。
终极闭环:核小体不稳定性与H2A.Z的驻留
虽然去甲基化和转录因子的结合提供了部分解释,但依然存在一个逻辑缺口:长效记忆结构域究竟有何特殊魔力,能够特异性地抵御甲基化转移酶的重新修饰,将这种低甲基化状态“固化”下来,并传递给下一代细胞?
答案的最后一块拼图,藏在DNA的物理弹性和核小体的动态组装中。
核小体的定位受到DNA序列特征的强烈影响。研究人员使用基于小鼠胚胎干细胞化学映射数据的隐马尔可夫模型 (NuPoP) 评估了记忆序列。预测结果显示,所有的炎症响应序列都具有较低的核小体亲和力,这符合它们易于转录开放的特性。但是,长效记忆序列展现出了一个更为独特、更深且更宽的核小体“排斥谷 (disaffinity valley)”。这个排斥谷的位置,极其精准地与该区域的高CpG密度区重合。基于DNA甲基化状态的3D构象预测也表明,长效结构域在去甲基化后,其DNA链的刚性和扭转角度更倾向于从核小体上解旋。
高CpG密度、低核小体亲和力、持续的去甲基化状态,这一切特征在分子生物学中都指向了一个著名的组蛋白变体:H2A.Z。
H2A.Z是经典组蛋白H2A的保守变体。含有H2A.Z的核小体天生不稳定,容易在DNA上滑动或解离,从而暴露出DNA供转录机器使用。更为关键的是,H2A.Z的掺入与DNA甲基化是绝对互斥的。H2A.Z可以阻止DNA甲基化酶的靠近,从而稳定去甲基化状态;同时,H2A.Z的合成和掺入甚至不依赖于DNA复制期,在细胞分裂后可以迅速回填。
这仿佛是一个为长效记忆量身定制的维护引擎。数据证实了这一设想。在未受刺激的细胞中,记忆结构域几乎没有H2A.Z。而在炎症发生时,随着DNA甲基化的降低,H2A.Z大规模入侵记忆结构域,并且对长效记忆区域表现出极大的偏好。当炎症消退到第30天时,短效记忆结构域上的H2A.Z已经大量流失,几乎跌回基线;而长效记忆结构域却像磁铁一样,牢牢地锁定了H2A.Z,其结合量与急性炎症期相比几乎没有衰减。
研究人员发现,全基因组范围内,H2A.Z的富集程度本来就高度依赖于中高水平的CpG密度。长效记忆结构域凭借其天然富含的CpG序列,在被炎症转录因子(如AP1)强行撕开染色质、剥离甲基化修饰之后,顺理成章地被纳入了细胞本底的H2A.Z稳态循环网络。
至此,炎症记忆的“长寿密码”完成了逻辑闭环:首先是启动阶段,急性炎症召唤AP1等应激转录因子,强行打开染色质,导致DNA大幅去甲基化;其次是筛选阶段,短效区域因缺乏足够的CpG支撑,在炎症消退后逐渐被重新甲基化,核小体重新紧密盘绕;接着是核心的固化阶段,长效区域凭借其内在的高CpG密度,在去甲基化后展现出排斥核小体的物理本性,这种特殊的序列景观迅速吸引并滞留了组蛋白变体H2A.Z;最终实现长存,H2A.Z与去甲基化状态形成正反馈屏障,抵抗时间的侵蚀和细胞分裂的稀释。同时,裸露的CpG位点允许如ETS1等稳态转录因子持续结合。这一整套机制,将染色质永久锁定在一种“蓄势待发 (poised)”的开放状态。当二次伤害来临,无需繁琐的染色质重塑,基因就能瞬间爆发。
跨越组织的普适语法:留给生命的思考
这项研究将表观遗传的复杂性,最终还原为了DNA序列本身最朴素的物理和化学特征。CpG密度就像是一个设定好的遗传旋钮,精确调控着每一次环境经历能够在细胞中存留的时长。
更令人振奋的是,这种密码似乎并非表皮干细胞所独有。研究人员重新挖掘了公开的数据库,发现在面临胰腺炎刺激的小鼠胰腺腺泡细胞中,以及在面对脂多糖 (LPS) 刺激的造血干细胞中,那些能够维持长效表观遗传记忆的DNA区域,无一例外地都具有高度富集CpG的显著特征。这暗示着,利用CpG密度、H2A.Z以及DNA去甲基化来锚定长期记忆,很可能是高等生物在漫长的进化中,演化出的一种跨越细胞类型、跨越不同压力源的普适性压力适应语法。
这种长效记忆机制的阐明,为医学界带来了深远的思考与广阔的应用前景。理解了记忆是如何被“固化”的,我们就拥有了干预的可能。对于那些能够抵御二次感染的良性免疫记忆,我们或许可以通过调节局部表观遗传状态,让保护力更加持久;而对于那些因长期积累而导致慢性皮炎、严重哮喘,乃至因为炎症微环境的记忆而为胰腺癌等恶性肿瘤提供温床的“恶性记忆”,我们或许可以设计出精准的靶向策略,打破H2A.Z与CpG的反馈循环,彻底抹除这些有害的历史记录。
在细胞每一次的周而复始中,DNA不仅是遗传信息的蓝图,更是记录生命阅历的日记本。每一次探索,都在让我们更懂这本用时间写成的生命之书。
参考文献