为什么以前看不见?因为镜头不够近
克隆性造血(clonal hematopoiesis, CH)指的是某个造血干/祖细胞获得突变后,其后代细胞在血液中扩张。过去人们常用SNP芯片(SNP-array)观察mCAs,但它更像是低倍镜:能看到大片段、较高比例的异常,却容易漏掉短片段或低克隆比例的事件。
这项研究改用血液来源、约30倍覆盖度的全基因组测序(whole-genome sequencing, WGS),并重新设计计算流程:先校正测序深度、屏蔽生殖系拷贝数变异(copy number variants, CNVs),再利用杂合位点的单倍型信息识别等位基因失衡(allelic imbalance),最后根据读深变化判断拷贝数状态。结果是在484081名UK Biobank参与者中,发现35033人携带至少一个常染色体mCA,总数达到43617个,检测灵敏度约为既往SNP芯片分析的2倍。
差异尤其体现在两个区域:低克隆比例的大mCA,以及中高克隆比例的小mCA。WGS检测到等位基因失衡小于0.01的mCA数量是SNP芯片的2.8倍;长度小于1 Mb的mCA数量是10.5倍;全染色体拷贝中性杂合性缺失(copy-neutral loss of heterozygosity, CN-LOH)也从111个增至624个,增加5.6倍。这说明很多“看不见的克隆”,并不是不存在,只是过去的工具没有足够分辨率。
年龄效应也十分清楚。40–44岁人群平均每人约0.04个常染色体mCA,65–69岁则升至0.14个。这个数字不应被简单解读为每个人都会患病,而应理解为:血液细胞的遗传组成会随年龄发生可测量的偏移。
短小的缺失,暴露了基因组的脆弱地带
WGS的高分辨率让研究人员能追踪小于1 Mb的短mCA。研究中识别出53个短mCA热点,其中包括41个复发性短缺失热点和12个短重复热点。值得注意的是,其中46个热点此前未被发现;48个热点中,超过25%的mCA调用可以得到跨断点异常读对(discordant read pairs)的支持。
这些热点并不全是传统意义上的“驱动基因”所在地。部分新发现的缺失热点落在染色体脆性位点(chromosomal fragile sites)附近,例如MACROD2、RBFOX1、PRKN和NRXN1等区域。研究人员比较了19个已在癌症基因组中报道的常染色体脆性位点,其中10个也是血液mCA热点。这提示一个重要问题:血液中的某些嵌合缺失,可能并非晚年才在选择压力下出现,而是在更早时期由基因组结构脆弱性产生,随后在血液中被检测到。
断点数据进一步揭示了这些缺失的形成机制。研究人员用异常读对将3500个间质缺失定位到约1 kb分辨率,其中2274个被嵌合读段(split reads)解析到碱基水平。88%的完全解析缺失在断点处只有0–3 bp微同源性(microhomology),其中0 bp最常见。这一模式更符合非同源末端连接(nonhomologous end joining, NHEJ)参与修复DNA双链断裂,而非依赖长同源序列的修复。换言之,很多mCA可能起源于一次断裂、一次修复、一次并不完美的缝合。
研究还在159名个体中发现不同染色体上的mCA可由同一复杂结构变异事件连接,并完整重建了22例复杂嵌合结构变异(complex structural variants, complex SVs),包括易位、倒位和复杂重排。健康人血液中能观察到这样的结构改写,提示“正常”和“癌前”的边界可能比我们习惯想象的更连续。
13q14:一个常见到不能忽视的CLL前哨
慢性淋巴细胞白血病(chronic lymphocytic leukemia, CLL)中最常见的染色体异常包括13q14缺失和12三体(trisomy 12)。此前SNP芯片分析在UK Biobank中各自约能检测到0.1%的携带者,并显示它们与CLL发生风险大幅升高相关。
这项WGS研究把13q14缺失的图像显著放大。常规WGS分析已能检测到约2倍于SNP芯片的13q14缺失;进一步针对13q14约1 Mb常见缺失区做读深分析后,检测下限可降至约2%细胞比例,最终发现2906个13q14缺失,是SNP芯片分析的5倍。其年龄相关性非常明显:40岁左右人群约0.1%,到70岁左右升至约1.1%。也就是说,在老年人血液中,13q14缺失并不是边缘现象,而是最常见的常染色体mCA之一。
问题随之而来:发现13q14缺失,是否意味着一定会发展为CLL?答案是否定的,但风险并不均一。
研究人员对最多15年的癌症随访数据进行了分析。对于没有13q CN-LOH、推测多为单等位基因缺失的13q14缺失,10年CLL无病生存率随克隆比例降低而明显变化:细胞比例小于5%的携带者约为92%,细胞比例大于10%的携带者降至72%。这意味着同一种mCA的临床含义不能只看“有没有”,还要看克隆大小、断点位置以及是否伴随其他改变。
更有意思的是,13q CN-LOH事件常常会让已有13q14缺失变成双等位基因受损。在149名13q14区域高细胞比例(大于5%)CN-LOH携带者中,109人有证据显示13q14缺失被CN-LOH推向双等位基因化。然而,13q CN-LOH携带者进展为CLL的速度与单等位基因13q14缺失相近。这与CLL患者中单等位基因和双等位基因13q缺失预后差异有限的流行病学观察相吻合,也提醒我们:在血液克隆演化中,“第二击”(second hit)并不总是线性地等于更快进展。
用“癌前突变”找遗传易感位点,比等癌症发生更有力?
这项研究还有一个值得关注的设计:研究人员没有只把CLL诊断作为结局,而是把CLL相关mCA本身作为遗传关联分析(genome-wide association study, GWAS)的表型。
原因很简单。UK Biobank中携带13q14缺失或12三体的人数为3679,高于已有或随访中新诊断CLL的1502人。用更早、更常见的“前哨表型”做GWAS,统计功效可能更高。结果也确实如此:针对13q14缺失或12三体状态的GWAS发现18个显著位点,而针对CLL诊断状态的GWAS发现12个;其中15个mCA相关位点位于既往CLL风险位点500 kb范围内。
这并不意味着mCA GWAS可以完全替代疾病GWAS。更谨慎的解释是,mCA可能更接近单克隆B细胞淋巴细胞增多症(monoclonal B-cell lymphocytosis, MBL)或CLL前状态的遗传易感性;而从MBL进展到CLL的遗传因素,仍可能被这种设计漏掉。这里的关键启发是:疾病发生之前的分子事件,也可以成为遗传研究的有力入口。
CN-LOH:不改变拷贝数,却能改写等位基因命运
在43617个mCA中,CN-LOH占了相当大比例。CN-LOH的特殊之处在于:它不改变总拷贝数,却会让某一段染色体从“父源一份、母源一份”变成“两份来自同一侧”。表面上基因剂量不变,实质上等位基因组合被重写。
研究人员分析了21050个CN-LOH,并结合WGS中罕见蛋白编码变异(rare protein-altering variants),发现38个基因的编码变异与覆盖该基因的CN-LOH显著相关,阈值为P小于1.2×10^-5且错误发现率(false discovery rate, FDR)小于0.01。这些基因富集于DNA双链断裂反应(DNA double-strand break response,P=1.0×10^-7)、凋亡调控(apoptosis,P=5.1×10^-6)、细胞因子信号(cytokine signaling,P=1.3×10^-6)和蛋白泛素化(protein ubiquitination,P=6.3×10^-4)等过程。
多数情况下,CN-LOH像是在给促增殖等位基因“加倍”:例如让某个有利于克隆扩张的罕见变异变成纯合状态,这符合经典第二击模型。但研究也看到另一类方向相反的事件:CN-LOH会移除可能降低细胞适应度的有害等位基因,让未受损等位基因取而代之。研究人员称其类似“自然基因治疗”(natural gene therapy),涉及CFLAR、IL2RB等基因,并在ERG中看到支持性证据。
这种现象并不局限于少数例子。在对血液肿瘤细胞系生存最关键的DepMap低分位基因中,有225个基因的CN-LOH更倾向于移除有害等位基因,154个更倾向于形成第二击,差异具有统计学意义(P=3.1×10^-4)。这提示血液克隆选择并不只奖励“危险突变”,也可能奖励“修复劣势”的细胞。
有些罕见变异,几乎在等待一次染色体事件
另一个值得关注的是某些罕见失功能变异(loss-of-function variants, LoF)的外显率(penetrance)。在携带TM2D3 LoF变异的UK Biobank参与者中,超过一半能检测到覆盖TM2D3的15q CN-LOH;TM2D1 LoF携带者的对应外显率也达到27%,95%置信区间为17%–39%。
年龄趋势同样清楚。TM2D3 LoF携带者中,40–44岁检测到相关CN-LOH的比例约30%,65–69岁升至69%。这不是一个瞬间发生的开关,而像是几十年内不断积累机会的过程:先天携带的等位基因差异提供了选择底物,后天发生的CN-LOH则改变了它在细胞中的剂量。
不过,这里也需要避免过度解读。多数由罕见编码变异解释的CN-LOH克隆比例仍低于5%。换言之,它们展示了强烈的生物学选择信号,却未必直接等同于短期临床风险。
常见变异也在推一把,但力道更小
除了罕见编码变异,常见变异(common variants)也可能影响CN-LOH方向:如果一条同源染色体上携带更多促血细胞增殖的等位基因,CN-LOH可能更倾向于保留并复制它。
研究中,单个位点层面的常见变异信号并不多。在排除可能由罕见编码变异驱动的CN-LOH后,研究人员只复现了DLK1位点的关联;另有PRDM16、JAK2、ATM和SH2B3等位点与CN-LOH方向相关。更整体的多基因评分(polygenic score, PGS)分析显示,CN-LOH更倾向于保留血细胞计数增高方向的单倍型。基于方差组分模型估计,常见变异对CN-LOH方向性的平均遗传力约为0.08,标准误为0.03。
这组数字很有分寸:常见变异确实参与选择,但解释度有限。研究人员估计,38个靶基因中的罕见编码变异大约只能解释9%的CN-LOH事件。剩下的大多数CN-LOH,可能由未发现的罕见变异、表观遗传差异、其他体细胞突变,或作为“乘客事件”搭上已有克隆扩张过程所驱动。
真正值得追问的,不是“有没有突变”,而是“它会怎样演化”
这项研究把一个事实推到台前:我们的血液基因组并非静态档案,而是不断被复制、损伤、修复和选择的动态系统。mCA的意义也不能被简化成“好”或“坏”。同样是13q14缺失,克隆比例和缺失长度会影响后续风险;同样是CN-LOH,它既可能放大促增殖变异,也可能移除有害等位基因;同样是遗传易感,罕见大效应变异和常见小效应变异的作用方式完全不同。
研究也有边界。UK Biobank主要覆盖40–70岁人群,非欧洲遗传祖源代表性有限;研究使用的是单时间点血液WGS,无法直接观察每个克隆的纵向扩张轨迹;分析没有覆盖性染色体mCA,也无法解析具体细胞类型。更重要的是,检测到mCA并不等于需要立即医学干预,尤其当克隆比例较低、缺乏纵向变化和临床异常时。
但它确实提出了一个未来医学必须面对的问题:当全基因组测序越来越普及,我们会在大量“健康”个体血液中看到癌前克隆。哪些需要监测?哪些只是年龄留下的分子痕迹?哪些能帮助我们提前理解疾病,而不是制造焦虑?
这项研究的价值,正在于把这些问题从模糊讨论推进到数据层面。43617个mCA不是简单的突变清单,而是一张血液克隆演化地图。衰老并不只是细胞数量和功能的变化,也是一场发生在基因组层面的长期选择实验。
参考文献