生命科学
Life science
演化医学(Evolutionary medicine)融合了演化生物学与医学,加深了我们对人类性状与疾病易感性的认识。然而,由于复杂基因组区域研究的技术局限,以往研究多关注于单核苷酸变异(SNVs),阻碍了我们对复杂区域演化起源和临床意义的全面分析。近日,上海交通大学Bio-X研究院毛亚飞团队在Cell Press细胞出版社旗下期刊Trends in Genetics发表综述文章,总结了近期在灵长类“端粒到端粒”(T2T)基因组及其他灵长类资源方面的研究进展,阐述这些资源如何促进复杂基因组区域的研究。文章聚焦若干生物医学相关领域以探讨灵长类基因组演化与人类疾病之间的关系,强调了高通量功能基因组技术在评估候选基因位点上的潜力,并在演化医学的背景下展望了未来灵长类研究的方向。文章共同第一作者为马凯玥博士和杨翔宇博士。
有兴趣在Trends in Genetics发表您的综述文章?请扫描提交论文提案 (presubmission inquiry)。
1. 灵长类演化医学:对复杂基因组区域的关注日益提高
演化医学通过演化原理分析人类性状和疾病,阐明塑造这些性状的机制以及物种形成或群体分化如何导致我们对某些疾病的易感性[1],为改善人类健康提供新的洞见。由于短读长测序和低准确率长读长测序技术的局限性,过往研究主要关注单核苷酸变异(SNVs)而忽视了结构变异(SVs),尤其是大尺度的复杂区域,如片段重复(SDs)和结构多变区域(SDRs)。高准确率或超长读长测序的新近发展和“端粒到端粒”(T2T)基因组的组装促进了复杂基因组区域的比较研究(图1),多组学数据集、相关遗传机制的识别与功能评估也为不同分子水平上的差异比较与疾病研究提供了支持。
2. 日益丰富的灵长类资源
近年来,利用长读长测序技术产生的完整或近乎完整的基因组揭示了灵长类动物中快速的基因组重排、复杂基因组区域和独特的染色体结构。新的长读长RNA-seq、单细胞/单核时空测序、表观遗传组学、蛋白质组学、代谢组学数据持续产生和积累,为基因组结构、基因表达与功能提供了新的演化上的理解,推动灵长类演化医学进入交叉学科时代。
人类T2T参考基因组的成功组装实现了对复杂基因组区域及其内部变异更精细的研究,对遗传关联研究和疾病诊断有重要意义。对于非人灵长类,目前已经发布的T2T基因组涵盖了黑猩猩、倭黑猩猩、大猩猩、苏门答腊猩猩、婆罗洲猩猩、合趾猿和食蟹猴。这些T2T基因组共同展示了多样化的基因组结构,清晰地揭示了复杂基因组区域的演化过程。这些研究成果给疾病研究带来了新的启发,例如,人类21号染色体独特的着丝粒结构和演化历史是人类唐氏综合征发生的遗传基础(图1)。
长读长RNA-seq实现了转录异构体(isoform)的快速准确识别,极大优化了基因注释。这帮助我们更深入地理解基因如何通过不同的异构体在不同细胞类型和发育阶段发挥作用,以及不同突变(variant)对转录过程的影响。单细胞(核)技术的发展和不同发育阶段的不同样品的收集大大提高了基因调控转录组研究的时空精度。两种技术的结合产生了不同类型细胞间精准的异构体图谱,对我们从异构体水平揭示人与非人灵长类的差异有重要意义。
▲图1:灵长类基因组组装概况和完整T2T基因组组装带来的新见解示例
3. 对演化医学的新认知
受短读长测序和参考基因组不完整的限制,结构变异在健康/疾病相关的生物医学机制中的作用仍不明确。随着新技术的出现,复杂基因组区域逐渐得以解析,以下即是一些从演化的角度为医学提供新的理解的例子。
(1)简单插入和删除
灵长类特有的可移动元件Alu可以令基因组发生快速变化,产生新性状和人类疾病。例如,灵长类特异基因NLRP7富含Alu的结构使其易于发生大片段丢失,这和复发性葡萄胎有关(图2A)。
(2)串联重复
研究新进展促进了串联重复拷贝数(VNTRs)的准确测定和它们在基因组上的精确定位,推动了演化医学的研究。例如,黏蛋白基因的基因组可塑性可能在抗击感染上具有选择优势,但其固有的基因组不稳定性和重要功能也可能使我们面临更高的癌症风险(图2B)。
(3)倒位
T2T人类基因组将倒位检测的准确度提高了约20%,显著提升了辨别真实倒位和基因组组装方向错误的能力,促进了拓扑关联结构域(TADs)等的功能注释。这在最近关于16p12.2微小缺失区域的研究中得以体现(图2C),研究结果表明它们与神经发育疾病有关。
(4)片段重复
片段重复经常导致非等位同源重组(NHAR)以及与之相关的疾病相关微小缺失和重复,并且与性状加速演化有关,例如人类大脑的扩张和与之相关的人科特有NOTCH2NL序列(图2D)。
(5)结构多变区域
结构多变区域(SDRs)是染色体快速多样化的目标区域,与疾病风险存在潜在关联;SDRs可能是导致人和非人灵长类之间生理差异的重要因素,这对生物医学转化研究十分重要,例如MHC位点中的补体成分基因C4A和C4B存在反复复制和/或基因转换(conversion),在人类中能鉴定到不同结构的单倍型,提示了这个位点存在持续的快速变化和显著的个体间差异(图2E)。此外,探索人和非人灵长类之间的代谢差异,以促进人类药物开发和确定最优药物用量也是一个极具吸引力的研究领域。
总体而言,长读长测序和灵长类完整基因组为我们理解复杂基因组区域提供了强有力的工具。这些资源使我们能够研究谱系特异SVs的出现和选择,以及与它们相关的基因组不稳定性。
▲图2:基因组疾病相关区域的结构变异和遗传见解
4. 新策略为功能基因组学带来新可能
数据量的迅猛增长使得高通量方法成为必然选择。已有的方法包括大规模并行报告基因分析(MPRAs)、高通量基因编辑技术(CRISPR screens)等,而长读长测序和完整基因组为这些技术提供了新的使用策略。灵长类完整基因组帮助我们发现了更多人和非人灵长类之间的差异,尤其是传统MPRA无法研究的结构差异。因此通过MPRA研究新发现元件是有必要的,并且可以预见长读长测序将提高候选顺式调控元件(CRE)的大小上限(图3)。将灵长类完整基因组与Perturb-seq相结合将产生一种“after the fact”模式的新研究方法,使用特异性较低的gRNA而后再确定编辑的准确位点,这将极大地促进对复杂基因组区域的研究。利用腺相关病毒(AAV)递送CRISPR构建体的in vivo Perturb-seq使活体动物研究成为可能,但在灵长类研究领域中存在重大的伦理和经济问题,需要在动物模型之外开发替代平台,类器官正在成为动物模型的有力替代物。
▲图3:功能基因组学的新策略
5. 总结与展望
完整基因组为结构变异和复杂基因组区域更深入的研究提供了条件,从分子、细胞和发育水平上揭示人和其他灵长类动物之间的功能遗传差异(图4)。这将加深我们对灵长类性状和人类疾病的理解。预计未来将在T2T基因组组装的简化与优化、更广泛的群体水平泛基因组研究、以及构建代表不同物种的不同发育组织的类器官等领域进行深入探索。
▲图4:联结完整灵长类基因组与灵长类演化及人类疾病
论文作者介绍
毛亚飞
长聘教轨副教授
毛亚飞,上海交通大学Bio-X研究院长聘教轨副教授,课题组长,博士生导师。长期致力于研究灵长类适应性演化和脑疾病中的遗传机制。曾获得国家级青年人才项目(海外)等计划支持。目前,担任多个国内外灵长类研究联盟子课题组长。主要研究成果以第一作者或通讯作者发表在Nature、Cell、Nature Methods、Genome Biology、Current Biology等杂志上。目前担任BMC Biology和Genome Biology编委。该课题组长期招收具有生物信息学、演化基因组学和神经发育生物学等背景的博士后。
相关论文信息
相关研究发表在Cell Press细胞出版社
旗下期刊Trends in Genetics,
▌论文标题:
Advancing evolutionary medicine with complete primate genomes and advanced biotechnologies
▌论文网址:
https://www.sciencedirect.com/science/article/pii/S0168952524002658
▌DOI:
https://doi.org/10.1016/j.tig.2024.11.001