杜兰大学 Tony Hu 教授团队发表Nat. Commun | 突破性模型 GAM+ML 优化微生物耐药性基因筛选

近日,杜兰大学 Tony Hu 教授团队 Nature Communications 发表了一项重要研究,介绍了一种组关联模型 Group Association ModelGAM 的耐药基因识别方法。该方法能够精准识别与耐药性相关的基因变异,并有效减少传统全基因组关联研究(GWAS)可能导致的假阳性交叉耐药性假象,而无需依赖先验知识。此外,该研究结合机器学习ML)优化 GAM,提高了小型或不完整数据集的预测准确性。


图片

1. 基于GAM的方法构建和临床验证。a对结核分枝杆菌分离株的药物敏感性测试 (DST) 表型进行基因分型和最低抑菌浓度 (MIC) 培养分析。b通过基因型和表型信息进行数据过滤。c将 结核分枝杆菌分离株序列和 DST 数据输入 GAM 以识别与耐药性相关的突变,然后使用统计指标评估 GAM 分类性能。d将机器学习应用于 GAM 分类为与耐药性相关的 SNP,以预测耐药性特征。e进行多位点交叉验证以表征此 GAM + ML 预测方法的实用性。


GAM突破传统耐药性预测限


微生物耐药性主要由突变、水平基因转移以及抗生素滥用等因素驱动,导致常用抗生素的治疗效果下降。现有耐药性检测方法存在诸多局限性:培养法需在不同抗生素浓度下培养微生物,耗时长且操作繁琐,尤其对于生长缓慢的细菌;分子检测(PCR 和微阵列技术)虽然可以快速检测已知耐药基因,但难以发现新型或罕见耐药突变;DNA 测序可检测新突变,但依赖现有突变数据库,存在假阳性和假阴性问题;GWAS虽然在识别与特定耐药表型相关的突变方面取得一定成果,但在分析多重耐药表型时存在局限性。


GAM 采用系统化统计分析策略,从群体、基因和突变层次筛选并识别与耐药性相关的基因变异。在群体水平,研究者根据菌株的耐药特征进行分类,将所有药物敏感的菌株作为对照组,并排除耐药特征独特但样本量过少的菌株。随后,使用 Fisher’s 精确检验比较各耐药群体的 DNA 变异,并校正多重检验误差,仅保留显著富集的变异进行后续分析。


通过计算耐药菌群与敏感菌群的变异检测率差异,筛选出优势比 的变异,将目标变异数量从 55.8×10 降至 31.0×10³,大幅提高了分析效率,精准锁定与耐药表型高度相关的关键突变。在基因水平,所有在特定耐药菌株中显著富集的 DNA 突变再次经过 Fisher’s 精确检验,以识别其与特定抗生素耐药性的关联,并归类到相应基因,形成基因-耐药突变关联数据库。在突变水平,进一步分析基因层面筛选出的变异,并结合 WHO 突变信号评级系统进行分级评估,以识别罕见耐药突变。这一系统化方法使 GAM 无需先验知识即可精确识别耐药基因变异,并有效减少 GWAS 可能出现的假阳性交叉耐药性问题。


研究团队应用 GAM 分析了 7,179 株结核分枝杆菌(Mtb)的基因序列与耐药表型,成功识别出与抗结核药物耐药性相关的基因靶点。相比 WHO 基因突变目录,GAM 显示出更少的交叉耐药性假象,无需依赖专家规则筛选,提高了预测的通用性和准确性。此外,GAM 在 3,942 株金黄色葡萄球菌(S. aureus)耐药性分析中也表现出高预测能力,进一步证明了其适用于多种病原体的广泛性。


研究团队进一步结合机器学习(ML)优化 GAM,以提高预测准确度,尤其在小样本或不完整数据集中。利用 427 株来自三家机构的 Mtb 临床分离株进行验证,结果显示 GAM 提供的输出变量比 WHO 方法更适用于 ML 模型,进一步提升了耐药性预测精度。


临床应用与未来展


GAM+ML 的结合不仅能减少假阳性交叉耐药性的误判,还能在无先验知识的情况下准确预测耐药性突变,为个体化抗生素治疗提供更精准的指导,也为低成本基因检测 POCT(即时检测)手段的开发提供理论依据。这一技术有望广泛应用于耐药性监测、药物研发和公共卫生防控,为抗击耐药性微生物感染提供更高效的解决方案