来源:作物功能表型研究
利用基因组数据来预测生物体对营养、毒素和病原体暴露变化的反应结果,可以为作物改良、疾病预后、流行病学和公共卫生等提供信息,但从基因组规模信息中准确预测复杂的表型性状既是一个巨大的挑战。
2021年9月,纽约大学基因组学和系统生物学中心、美国西拉斐特普渡大学园艺与园林系及普渡植物生物学中心等单位合作在《nature communications》上发表了题为“Evolutionarily informed machine learning enhances the power of predictive gene-to-phenotype relationships”的研究论文。
该研究提到,从基因组规模信息中准确预测复杂的表型性状主要存在以下挑战:一是收集高质量的表型数据难度较高;二是实验中收集的表型数据与测序数据的样品、实验不同;三是从单个实验中收集的特征(如基因数量)超过了表型(如样本量)导致数据稀疏性、多重共线性、多重测试和过拟合等问题。因此,该研究通过使用一种基于进化的机器学习方法,利用物种内部和跨物种的遗传多样性来解决这些挑战。
该研究结果如下:
1、进化信息的机器学习增强了基因表达到性状分析的预测能力
研究表明,利用在物种内和物种间保守的氮(N)响应差异表达基因(N-DEG)作为降维的生物学原理手段,可以增强我们从模式(拟南芥)和作物(玉米)植物的基因表达数据中学习预测氮利用率(NUE)表型的重要基因的能力。这种模式植物到作物的机器学习方法也使我们能够使用模式物种更快地验证作物中对NUE重要的保守特征。
2、量化拟南芥和玉米品种的NUE表型
在表型分析中,将NUE量化为将供应的氮转化为生物量/谷物产量的效率。对于拟南芥,NUE的计算方法为每株植物将供能氮素转化为茎部生物量的效率(NUE =地上干重/施氮量),拟南芥NUE变异系数(CV = 0.58)(图2a)。性状相关性分析表明,抽薹前NUE与NUpE高度相关(r = 0.88),与NUtE相关性较低(r = 0.39)(图2b),在拟南芥中N是主要的解释变量(图2c)。
3、进化保守的转录组对N处理的响应用于机器学习的特征降维
特征降维是机器学习中必不可少的预处理步骤,因为太多不相关的特征可能会干扰预测性能。结果表明,①N-DEG的表达水平已被用作玉米基因型中N状态的生物标志物,②表型数据显示N水平是解释玉米和拟南芥中NUE变异的重要因素。
图4 拟南芥-玉米中进化保守的N-响应基因,用作XGboost机器学习管道的生物学原理特征降维方法。
4、进化上保守的N响应基因增强了机器学习的预测能力
研究者使用基因表达值(N-DEGs)作为特征,通过XGBoost回归模型预测NUE性状,最终构建了18个拟南芥模型和16个玉米模型,对应于分析的每个基因型。结果表明,使用进化上保守的N响应差异表达基因显著改善了机器学习模型预测NUE的性能,并且这种改善不是由于基因特征的简单数值减少。此外,基于XGBoost的特征重要性排名和基于edgeR的P值排名之间的弱相关性表明XGBoost可以捕获单变量DEG分析之外的非线性基因-性状关系。并且为每个物种使用了一组超参数,以实现跨基因型的一致性能,这表明该模型是通用的,可能适用于其他基因型。
5、预测额外的特征证明了进化信息机器学习流程的普遍适用性
研究者对水稻和小鼠模型的转录组和表型数据集进行分析,将进化信息机器学习流程应用于植物和动物性状的外部数据集。结果表明,与GWAS和eQTL研究所需的数百个系相比,基于转录的预测可以使用更小的群体(水稻和小鼠分别为20和11个基因型)实现。