从无数基因碎片中,寻找国人的“生命密码”

阅读提要:做了40余年呼吸与危重症医学科医生,今年61岁的高占成接诊过上万例患者,“我一直有一个疑问,为什么同样一种小分子靶向抗癌药物,西方人服用一年甚至更久都不会出现耐药,但对于一些中国患者来说,可能三四个月就出现耐药”,高占成很无奈,这也让他不断地思考,我们和西方人是否有区别,区别在哪?

2021年春天,专家团队走进了坐落于山西省临汾市青龙山脚下的小山村,找到了一位叫何忠(化名)的小伙子,经过研究团队长时间调研,何忠一家世世代代没有离开过这个村庄。这个小山村距离尧建立的古唐国遗址“尧都”的所在地很近,也是明代洪洞大迁移的发祥地。1370年至1417年,这里曾有18次大规模人口外迁。“尧都”不仅地理位置特殊,其基因的保守性在历史长河中也得以维持,对于追溯中国人的起源、基因变异、遗传多样性等具有较高的参考价值。

(人民日报健康客户端记者 王艾冰 周学津)“问我祖先在何处,山西洪洞大槐树。”数百年来,这首民谣在大江南北、长城内外祖辈相传,山西省洪洞县大槐树,一度作为寻根祭祖文化代表,吸引着数亿计移民后裔来这里找“祖”、寻“根”。

2021年初,北京大学人民医院呼吸与危重症医学科主任高占成和中国科学院北京基因组研究所(国家生物信息中心)康禹团队也来到这里,走进了距离大槐树仅30公里的一个小山村,村庄位于青龙山脚下,2000多位村民世代生活在这里,而他们要在这个村庄寻找中国人独有的“生命密码”。

历经3年探索,2023年底《Genomics Proteomics & Bioinformatics》杂志正式发表了关于“唐尧”基因组的论文,这是首个“从头到尾”来自中国人的二倍体、无间隙全基因组参考序列,为具有汉族特征的中国人提供了基因组数据。

2024年8月19日,北京大学人民医院人类基因组研究中心正式揭牌。“未来,我们的患者就可能接受更精准的基因检测和精准治疗的靶向药物。”高占成坚定地说道。

图片

北京大学人民医院呼吸与危重症医学科主任高占成。受访者供图。

萌芽:我国癌症患者为什么总是很快耐药?

21世纪初,随着“人类基因组计划”的实施,首个单倍体人类基因组图谱问世,被看作是人类自我探索史上一大里程碑1,象征着人类对自我的了解走向了全新的高度。“但此前,全球仍缺少能完整代表自身遗传特色的参考基因组,对于中国这样一个悠久历史和人口庞大的国家,自身参考基因组的缺失,无疑是遗传学研究中一个巨大的空白。”高占成告诉人民日报健康客户端记者。

2020年,高占成的一位高中同学找到他,她患肺癌已经到了晚期,“她找到我的那一刻,我几乎快认不出来了,整个人非常清瘦,很没有精神。”高占成回忆,通过同学之间的介绍,这位同学找到我时已经使用了一种靶向药,并且2个月后就出现了耐药,我赶紧给她换了另一种靶向药,但是3个月后也出现了耐药。

图片

北京大学人民医院呼吸与危重症医学科主任高占成(右)在出诊中,受访者供图。

做了40余年呼吸科医生,今年61岁的高占成接诊过上万例患者,“我一直有一个疑问,为什么同样一种药物,西方人服用一年甚至更久都不会出现耐药,但对于一些中国患者来说,可能三四个月就出现耐药”,高占成很无奈,这也让他不断地思考,我们和西方人是否有区别,区别在哪?

作为国家重大疾病应急专家组成员,高占成长期以来研究各种复杂罕见的临床案例。通过比对不同种族人群之间同一病种的临床表征,他发现许多综合征不论是临床症状、实验室检查结果、肺部影像学、累及器官组织损伤的程度,还是疾病演进和治疗效果等方面都存在差别。

而这些差别也许能在基因中找到答案。

据中国科学院2003年发布的《人类基因组计划》显示,由美、英、日、德、法、中六国参与的国际人类基因组计划核心内容是测定人基因组的全部DNA序列,从而获得人类全面认识自我最重要的生物学信息,人们将从基因组和比较生物基因组的水平,来重新探讨和认识生命的进化、遗传、发育、生物和环境、 脑功能等重要生物学问题,生命科学开始了以DNA序列为基础的,以生物信息学为导向的新纪元。中科院于1999年9月1日代表中国正式加入该计划。

“不可否认,一个时代有一个时代的天花板。”高占成介绍,“长久以来,受制于技术和观念的限制,全球医学实践大量依赖欧美科学家创建并普及的参考基因组GRCh37/38,肿瘤、遗传病等测序诊断报告均以此序列为基准,判定是否正常或存在变异,而这一参考基因组由多个人类个体基因组序列嵌合而成,其中约70%的序列来自一个欧非裔个体。”

“这个基因组主要反映欧洲和非裔的遗传特征,对亚洲、特别是东亚人种群的遗传画像描绘不足,缺失较多。”高占成表示,由于缺乏能够准确反映中国人遗传特性的参考基因组,临床医生对某些遗传性疾病、重大疾病的识别也可能不够精准,进而影响治疗方案的制定和执行,针对中国人的精准医疗进展也因此受到了制约。因此,在高占成看来,GRCh37/38不但不完整,而且也难以像欧美人种那样,作为中国乃至亚裔族群的完美参考基因组。

“绘制一个代表中国人自己的高质量参考基因组图谱,制作一把中国人的基因组标尺去精准衡量中国乃至东亚人种各个体的基因坐标”,这一梦想似乎一直驱动高占成寻找一个契机。

探索:从千年尧都找到符合大部分中国人基因序列

图片

北京大学人民医院呼吸与危重症医学科主任高占成(前左一)带领学生在进行实验,受访者供图。

高占成虽是一名临床医生,但从1990年就开始手动给肺炎支原体部分基因测序,这么多年对基因的研究一直没断。“我的一位学生康禹研究员现在都在中国科学院北京基因组研究所,自中国加入‘人类基因组计划’以来,我们就在讨论,从医学的需求出发,让中国人有自己的参考基因组,并能服务于医学是我最大的愿望。”高占成告诉人民日报健康客户端记者。

样本的选择是我们面对的第一个重要问题。我们做这件事的目的是更好地服务于现代医学,样本一定要代表大多数现代中国人的基因组特征。其次,首次成功构建的第一个完整单倍体人类基因组不仅源于欧洲人种,还是为单倍体22+X,缺乏Y染色体,为了更全面地反映中国人的基因,还应该构建完整的属于中国人的单倍体参考基因组(22+XY),以及完整的源于父母的二倍体参考基因组,以了解中国人种与高加索人种之间在基因组水平上究竟有哪些不同。中国科学院北京基因所研究员康禹解释道,另外,人类基因组应该是基于正常自然人构建的,这样会更能反映人类基因组世界的真实状态,会更有利于疾病诊断、探究制备靶向药物等。

2021年春天,时任临汾市中心医院党委副书记、院长郭淑明等专家走进了这个坐落于山西省临汾市青龙山脚下的小山村,找到了一位叫何忠(化名)的小伙子,经过研究团队长时间调研,何忠一家世世代代没有离开过这个村庄。

这个小山村距离尧建立的古唐国遗址“尧都”的所在地很近,也是明代洪洞大迁移的发祥地。1370年至1417年,这里曾有18次大规模人口外迁。“‘尧都’不仅地理位置特殊,其基因的保守性在历史长河中也得以维持,对于追溯中国人的起源、基因变异、遗传多样性等具有较高的参考价值。”高占成说。

“何忠与他的父母一样,是土生土长的“尧都”居民,且没有遗传或免疫疾病的记录。同时,我们经过测序得到,何忠的基因展现了东亚人群的典型特征,这对于研究中国人群的基因多样性和遗传结构至关重要。”康禹告诉记者,何忠的样本之所以被选中,有一个重要原因是其Y染色体分型(F2137)在中国分布广泛,这使得他的基因组具有很高的代表性。

诞生:高质量无缝隙组装中国人46条染色体60个亿碱基,完整诠释人类参考基因组

高占成带领的课题组对采自何忠的血液样本高度重视, “因为这一血液样本承载着太多基因人和医学的希望,后续的核型鉴定、家系测序、组装优化、性能评估、验证比较都极为不易,但留给我们的时间并不多。”高占成告诉记者,因为国际上类似的研究也在进行,而科学领域的金牌往往只有一块。

图片

北京大学人民医院呼吸与危重症医学科主任高占成(右)在和团队成员做科研。受访者供图。

“‘唐尧’属于二倍体染色体基因组测序,这是一项全球基因组领域中的前沿研究,可供借鉴的经验极少。面对含有60亿个碱基的人类二倍体参考基因组,我们当时的感受就像是一个人被扔进全都是拼图碎片的卡车集装箱里。”康禹告诉记者,人类二倍体参考基因组中,每个染色体都有来自父母双方的两个拷贝,两者之间的序列相似度极高,极易造成拼接错误和混淆。现有的拼接工具和策略主要针对单倍型基因组,无法有效解决二倍体基因组的拼接问题。

在多数人的眼中,高占成一直很温和。“但那段时间,高老师经常催促我们,晚上也经常失眠,大半夜也会出去散心寻找灵感。整个拼接过程中,重点区域如着丝粒和5条近端着丝粒染色体短臂,以及Y染色体的拼接是最为困难的。”团队成员高占成的博士生何玉坤介绍,我们开发了新的拼接策略,通过调整拼接流程顺序和优化参数来区分父母本序列,尝试了多种参数组合以优化拼接流程,最终成功了!

2023年底,《Genomics Proteomics & Bioinformatics》杂志正式发表“唐尧”,此外,经国际通用的评估基因组质量工具Merqury评估,“唐尧”的精准高质量水平达到了参考基因组的质量标准,成为世界首个真实世界的高质量人类参考基因组,首次成功构建了高质量无间隙的人类二倍体染色体基因组序列。

这一成果的发表,“不仅展示了‘唐尧’基因组的高质量,也突显了其在未来科学研究和医学应用中的巨大潜力,这是一个‘从头到尾’属于中国人的高质量参考基因组,为我国精准医疗的深入研发、拓展和进步铺平了道路。”高占成表示。

如今,北京大学人民医院已在国内率先成立人类基因组研究中心,利用“唐尧”参考基因组基,对重症肺炎、肺间质纤维化、肺癌等呼吸系统疾病开展基因组学研究,还与多学科多领域专家团队广泛合作,在不同临床医学领域进行深入研究和广泛应用,运用属于中国人自己的参考基因组序列来指引疾病的科研、诊断及治疗方向,为我国疾病的临床预防和精准医疗提供准确的个性化指导。

“唐尧”之前,我们一直用欧洲人的参考基因组来定义中国人的遗传变异,而在高占成和多位“唐尧”基因组团队成员看来,“唐尧”参考基因组更像一把钥匙,一点点地开启对中国人疾病遗传密码的深入探索之门,揭示不同疾病背后的基因组变化之谜。


参考资料:1、中国科学院官网,《人类基因组计划》,2003.04.25