NC|进化信息机器学习增强了预测基因与表型关系的能力

生信宝典

2024-10-17 21:00发布于北京

来源：作物功能表型研究

利用基因组数据来预测生物体对营养、毒素和病原体暴露变化的反应结果，可以为作物改良、疾病预后、流行病学和公共卫生等提供信息，但从基因组规模信息中准确预测复杂的表型性状既是一个巨大的挑战。

2021年9月，纽约大学基因组学和系统生物学中心、美国西拉斐特普渡大学园艺与园林系及普渡植物生物学中心等单位合作在《nature communications》上发表了题为“Evolutionarily informed machine learning enhances the power of predictive gene-to-phenotype relationships”的研究论文。

该研究提到，从基因组规模信息中准确预测复杂的表型性状主要存在以下挑战：一是收集高质量的表型数据难度较高；二是实验中收集的表型数据与测序数据的样品、实验不同；三是从单个实验中收集的特征（如基因数量）超过了表型（如样本量）导致数据稀疏性、多重共线性、多重测试和过拟合等问题。因此，该研究通过使用一种基于进化的机器学习方法，利用物种内部和跨物种的遗传多样性来解决这些挑战。

该研究结果如下：

1、进化信息的机器学习增强了基因表达到性状分析的预测能力

研究表明，利用在物种内和物种间保守的氮（N）响应差异表达基因（N-DEG）作为降维的生物学原理手段，可以增强我们从模式（拟南芥）和作物（玉米）植物的基因表达数据中学习预测氮利用率（NUE）表型的重要基因的能力。这种模式植物到作物的机器学习方法也使我们能够使用模式物种更快地验证作物中对NUE重要的保守特征。

图1：进化信息机器学习方法增强了基因与表型关系的预测能力。步骤1功能选择：氮(N)-响应的表型和转录组学数据是从拟南芥（实验室生长的）和玉米（田间生长的）在低N与高N条件下产生的。在两个物种中保守的N-响应差异表达基因（N-DEG）的表达水平通过“留一”方法鉴定（图4），并用作步骤2中的机器学习方法中的基因特征。步骤2特征重要性：基于①XGBoost衍生的特征重要性得分（左）和②GENIE 3调控网络中的TF连接性（右）对基因进行了排名，该网络由N-响应TF（步骤1）作为调控因子，XGBoost重要特征作为靶标构建。步骤3特征验证：使用拟南芥和玉米功能丧失突变体验证了NUE在植物中对8个TF的作用。

2、量化拟南芥和玉米品种的NUE表型

在表型分析中，将NUE量化为将供应的氮转化为生物量/谷物产量的效率。对于拟南芥，NUE的计算方法为每株植物将供能氮素转化为茎部生物量的效率(NUE =地上干重/施氮量)，拟南芥NUE变异系数(CV = 0.58)(图2a)。性状相关性分析表明，抽薹前NUE与NUpE高度相关(r = 0.88)，与NUtE相关性较低(r = 0.39)(图2b)，在拟南芥中N是主要的解释变量(图2c)。

图2 氮素是拟南芥不同品种氮素利用效率差异的主要因素。a.在三个独立批次中测量的拟南芥基因型之间的NUE的箱形图。b.本研究中测量的性状的相关性。c.UNE的变化主要是由氮素水平，其次是加入和通过加入相互作用解释的氮。

对于玉米，使用总NUtE（秸秆生物量+谷粒生物量）/（秸秆N含量+谷粒N含量）作为目标性状（图3a），其与籽粒NUtE高度相关（图3b）。对于本研究，选择了12个玉米自交系，其表现出与318个基因型（CV = 0.15）的较大群体相似的NUtE表型值的变异系数（CV = 0.19）。ANOVA结果显示，在该玉米实验中总NUtE变异的55%归因于遗传效应（图3c）

图3 基因型是解释玉米育种系氮利用效率变异的主导因素。a.连续三年测量的玉米基因型组中的总氮利用（NUtE）值的箱形图。b.本研究中测量的性状的相关性。c.2014年RNA样品收获年份的总NUtE方差主要由基因型（G）解释，其次是N和G× N效应。

3、进化保守的转录组对N处理的响应用于机器学习的特征降维

特征降维是机器学习中必不可少的预处理步骤，因为太多不相关的特征可能会干扰预测性能。结果表明，①N-DEG的表达水平已被用作玉米基因型中N状态的生物标志物，②表型数据显示N水平是解释玉米和拟南芥中NUE变异的重要因素。

图4 拟南芥-玉米中进化保守的N-响应基因，用作XGboost机器学习管道的生物学原理特征降维方法。

4、进化上保守的N响应基因增强了机器学习的预测能力

研究者使用基因表达值(N-DEGs)作为特征，通过XGBoost回归模型预测NUE性状，最终构建了18个拟南芥模型和16个玉米模型，对应于分析的每个基因型。结果表明，使用进化上保守的N响应差异表达基因显著改善了机器学习模型预测NUE的性能，并且这种改善不是由于基因特征的简单数值减少。此外，基于XGBoost的特征重要性排名和基于edgeR的P值排名之间的弱相关性表明XGBoost可以捕获单变量DEG分析之外的非线性基因-性状关系。并且为每个物种使用了一组超参数，以实现跨基因型的一致性能，这表明该模型是通用的，可能适用于其他基因型。

图5 进化信息机器学习模型揭示了NUE的重要基因和预测基因。

5、预测额外的特征证明了进化信息机器学习流程的普遍适用性

研究者对水稻和小鼠模型的转录组和表型数据集进行分析，将进化信息机器学习流程应用于植物和动物性状的外部数据集。结果表明，与GWAS和eQTL研究所需的数百个系相比，基于转录的预测可以使用更小的群体(水稻和小鼠分别为20和11个基因型)实现。

图6 使用拟南芥和玉米的功能丧失突变体在NUE中对候选TF的实验验证。

6、验证对NUE预测模型有影响的基因功能

结果表明，使用进化上保守的基因反应显着增强了XGBoost机器学习模型预测不同基因型和物种（植物和动物）NUE结果的能力，以及基于XGBoost的重要分数和基于GENIE 3的连接性在选择功能上重要的特征（包括TF）方面提供了信息，以控制作物中复杂的生理性状NUE-这对可持续农业具有重要意义。

综上所述，遗传多样性、跨物种转录组分析和机器学习方法的融合增强了影响NUE的基因的预测建模。反向遗传分析结果进一步表明，这些基因预测的NUE不仅是生物标志物，也是重要的功能，在决定植物的性能，以响应环境营养。研究提出的管道可以补充目前的方法在确定重要的基因在多基因性状。对遗传多样性作物和动物数据集特征减少的进化信息策略的验证，支持其为任何寻求发现控制生物学、农业或医学中复杂表型的重要基因的系统提供信息的潜力。

查看原图 129K