串联重复序列(Tandem repeats, TR)是人类基因组中重要的重复DNA序列,对遗传多样性及疾病易感性有显著影响。过去30年,研究发现TR的扩增与60多种人类疾病相关联,尤其是在神经系统疾病领域,如亨廷顿氏病、脆性X综合征和额颞叶痴呆。尽管TR对遗传变异的贡献显著,但由于测序技术的挑战、生物信息学分析工具的局限性及不同人群基因组数据的偏差,导致我们对TR的理解仍然有限,其生物学意义尚未得到充分阐明。
美国加州大学李蔚教授和崔亚研究助理教授团队在Science Bulletin上发表了题目为“Advancements and future perspectives of human tandem repeats”的专家评介文章,系统总结了了人类TR研究的进展,重点讨论大规模人群中TR长度分布频谱的最新进展及其局限性,并展望了未来的发展方向。
随着测序技术的不断进步和人类基因组数据的积累,关于人类遗传变异的研究,特别是与重复序列(TR)相关的研究,正取得显著进展。在过去几十年里,借助大规模人群基因组数据,尤其是短读长全基因组测序(WGS),该领域取得了一系列突破(图1.A)。这些研究表明,TR在人群中表现出显著的差异,具体体现在不同祖源之间等位基因长度、扩增频率和疾病关联性等方面。然而,目前大多数研究集中于欧洲血统,突显了未来TR研究需要涵盖更为多样化的祖源人群数据,特别是那些代表性不足的群体。
越来越多的研究表明,某些与疾病相关的TR扩展表现出显著的祖源特异性,即TR单位频率在不同祖源人群中的分布存在显著差异,这一现象与特定祖源的疾病发病率密切相关。例如,肌强直性营养不良症1型(DM1)、亨廷顿舞蹈症2型(HDL2)、弗里德赖希共济失调(FRDA)和家族性成人肌阵挛性癫痫(FAME)等疾病在不同祖源人群中的流行率存在显著差异。基于最近发表的首个生物样本库级别的多种族TR扩增全基因组图谱(TR-gnomAD),在这些疾病的致病TR中观察到相应的的祖源特异性TR扩增现象 (图1.B),从一定程度上解释了人群中疾病发病率的差异。
该文还总结了TR研究的进展,并展望了未来的发展方向。除了需要提高不同祖源人群的基因组学数据外,TR的图谱表征也亟待进一步完善。目前的研究仅涵盖了人类基因组中部分TR的频率图谱,未来的研究需要引入更多的TR。此外,大多数研究基于短读长的WGS进行TR的识别和量化,难以准确分析长度超过读长的TR。这一限制会低估超过150 bp的TR位点的长度,从而影响致病TR扩增的识别。因此,未来的研究应考虑结合长读测序的优势,以更好地实现对复杂TR长度的准确鉴定。
总体而言,TR在大规模人群中的研究仍处于起步阶段,在数据集的质量、广度和TR基因分型工具的准确性方面仍有很大改进空间。相信随着人群TR频谱的不断完善,我们有望发现更多与人类疾病相关的TR,为这些疾病的诊断和治疗提供新的思路