年终福利大放送
深度学习已经被广泛应用于基因组学研究中,利用已知的训练集对数据的类型和应答 结果进行预测 ,深度学习 ,可以进行预测和降维分析。深度学习模型的能力更强且更灵活, 在适当的训练数据下,深度学习可以在较少人工参与的情况下自动学习特征和规律。调控基 因组学,变异检测,致病性评分成功应用。深度学习可以提高基因组数据的可解释性,并将 基因组数据转化为可操作的临床信息。深度学习通过强大的深度神经网络模型从高维大数据 中自动挖掘数据潜在特征得以实现 ,过去 10 年 ,深度学习在计算机视觉、语音识别、 自然 语言处理领域取得了巨大成功。基因组学大数据与疾病表型间的复杂关系难以解析,运用深 度学习挖掘多组学数据探索复杂疾病致病机制及药物反应机制将会极大的提升精准医学和 转化医学的进度。,近两年国内外顶尖课题组 MIT、 Harvard University、 UPenn、清华大 学、复旦大学等都在从事深度学习基因组学的研究 ,这一研究成果更是多次发表在 Nature Reviews Genetics 、 Nature Methods 、 Science Advances 、 Cancer Cell 、 Nature、Biotechnology 等知名国际顶刊上 ,为我们发表顶刊鉴定了基础。
作为一门数据驱动型科学,基因组学主要利用机器学习来捕获数据中的依赖关系并得出新的生物学假设。但是,要从呈指数级增长的基因组学数据量中提取新见解的能力需要更具表现力的机器学习模型。通过有效利用大型数据集,深度学习已经改变了计算机视觉和自然语言处理等领域。现在,它正在成为许多基因组学建模任务的首选方法,包括预测遗传变异对基因调控机制(如 DNA 可及性和剪接)的影响。
2
2
发CNS必须要学的五大课程
一.深度学习基因组学
二.AI蛋白质设计
三.AIDD人工智能药物发现与设计
四.CADD计算机辅助药物设计
五.机器学习代谢组学
2
2
深度学习基因组学
课程内容
第一天
理论部分
深度学习算法介绍
1.有监督学习的神经网络算法
1.1全连接深度神经网络DNN在基因组学中的应用举例
1.2卷积神经网络CNN在基因组学中的应用举例
1.3循环神经网络RNN在基因组学中的应用举例
1.4图卷积神经网络GCN在基因组学中的应用举例
2.无监督的神经网络算法
2.1自动编码器AE在基因组学中的应用举例
2.2生成对抗网络GAN在基因组学中的应用举例
实操内容
1.Linux操作系统
1.1常用的Linux命令
1.2 Vim编辑器
1.3基因组数据文件管理,修改文件权限
1.4查看探索基因组区域
2.Python语言基础
2.1.Python包安装和环境搭建
2.2.常见的数据结构和数据类型
第二天
理论部分
基因组学基础
1.基因组数据库
2.表观基因组
3.转录基因组
4.蛋白质组
5.功能基因组
实操内容
基因组常用深度学习框架
1.安装并介绍深度学习工具包tensorflow, keras,pytorch
2.在工具包中识别深度学习模型要素
2.1.数据表示
2.2.张量运算
2.3.神经网络中的“层”
2.4.由层构成的模型
2.5.损失函数与优化器
2.6.数据集分割
2.7.过拟合与欠拟合
3.基因组数据处理
3.1安装并使用keras_dna处理各种基因序列数据如BED、GFF、GTF、BIGWIG、BEDGRAPH、WIG等
3.2使用keras_dna设计深度学习模型
3.3使用keras_dna分割训练集、测试集
3.4使用keras_dna选取特定染色体的基因序列等
4.深度神经网络DNN在识别基序特征中应用
4.1实现单层单过滤器DNN识别基序
4.2实现多层单过滤器DNN识别基序
4.3实现多层多过滤器DNN识别基序
第三天
理论部分
卷积神经网络CNN在基因调控预测中的应用
1.Chip-Seq中识别基序特征G4,如DeepG4
2.Chip-Seq中预测DNA甲基化,DeepSEA
3.Chip-Seq中预测转录调控因子结合,DeepSEA
4.DNase-seq中预测染色体亲和性,Basset
5.DNase-seq中预测基因表达eQTL,Enformer
实操内容
复现卷积神经网络CNN识别基序特征DeepG4、非编码基因突变DeepSEA,预测染色体亲和性Basset,基因表达eQTL
1.复现DeepG4从Chip-Seq中识别G4特征
2.安装selene_sdk,复现DeepSEA从Chip-Seq中预测DNA甲基化,非编码基因突变
3.复现Basset,从Chip-Seq中预测染色体亲和性
4.复现Enformer,从Chip-Seq中预测基因表达eQTL
第四天
理论部分
深度学习在识别拷贝数变异DeepCNV、调控因子DeepFactor上的应用
1.SNP微阵列中预测拷贝数变异CNV,DeepCNV
2.RNA-Seq中预测premiRNA,dnnMiRPre
3.从蛋白序列中预测调控因子蛋白质,DeepFactor
实操内容
1.复现DeepCNV利用SNP微阵列联合图像分析识别拷贝数变异
2.复现循环神经网络RNN工具dnnMiRPre,从RNA-Seq中预测premiRNA
3.复现DeepFactor,从蛋白序列中识别转录调控因子蛋白质
第五天
理论部分
深度学习在识别及疾病表型及生物标志物上的应用
1.从基因表达数据中识别乳腺癌分型的深度学习工具DeepType
2.从高维多组学数据中识别疾病表型,XOmiVAE
3.基因序列及蛋白质相互作用网络中识别关键基因的深度学习工具DeepHE
实操内容
1.复现DeepType,从METABRIC乳腺癌数据中区分乳腺癌亚型
2.复现XOmiVAE,从TCGA多维数据库中识别乳腺癌亚型
3.复现DeepHE利用基因序列及蛋白质相互作用网络识别关键基因
第六天
理论部分
深度学习在RNA测序数据中准确鉴别RNA编辑与DNA突变的应用
1.通过深度学习模型DeepDDR高效准确地从单个RNA测序数据中识别RNA编辑和DNA突变
2.介绍DEMINING框架的创新设计和应用
实操内容
1.数据筛选:筛选标准去除转录组数据中的测序和比对错误
2.提取高可信度的RNA编辑位点和相同数量的DNA突变位点,分别用于训练、验证和测试模型
3. 使用多个层次的卷积和池化操作,提取突变位点周围的序列和读段比对特征,增强模型对突变的识别能力
4.识别突变位点,并捕捉到更大范围内突变的上下文信息,以准确区分RNA编辑和DNA突变
5.对识别出的突变进行功能分析,评估其对宿主基因表达的影响,为潜在的疾病机制提供新的见解
6.利用迁移学习将DeepDDR模型应用于非灵长类RNA测序样本,展示其在不同物种中的适用性和有效性
2
2
AI蛋白质设计
*涉及使用代码/计算工具的操作
一、蛋白质相关的深度学习简介
1.基础概念
1.1.机器学习简介:从手写数字识别到大语言模型
1.2.蛋白质结构预测与设计回顾
1.3.Linux简介
1.4.代码环境:VS code和Jupyter notebook*
1.5.Python关键概念介绍*
2.常用的分析/可视化蛋白质及相关分子的方法
2.1.常用数据库与同源序列搜索和MSA构建
2.2.使用pymol和Mol*可视化蛋白质结构*
2.3.使用biopython与biotite分析生物序列与结构数据*
2.4.使用fpocket与point-site分析蛋白质结构口袋*
3.深度学习蛋白质设计与传统蛋白质设计之间的差异
3.1.深度学习的本质
3.2.传统方法:全原子能量函数Rosetta与统计势
3.3.深度学习:几何深度学习
3.4.深度学习与传统的物理方法的互补性
3.5.深度学习蛋白质设计的优越性
4.蛋白质语言模型
4.1.语言模型:从RNN到Transformers
4.2.理解蛋白质语言
4.3.生成式蛋白质语言模型
4.4.结构模型与语言模型的比较分析
5.基于深度学习的蛋白质功能与性质预测
5.1.蛋白质功能分类预测*
5.2.信号肽、跨膜区、亚细胞定位预测
5.3.蛋白质同源结构搜索
5.4.酶活性位点预测
二、深度学习与蛋白质结构预测
1.传统蛋白质(复合物)结构预测
1.1.使用modeller、swiss-model进行同源建模
1.2.基于分子动力学的从头建模
1.3.分子对接加入非蛋白质部分,AutoDock Vina实际操作*
2.现代深度学习用于蛋白质结构预测
2.1.RaptorX:从计算机视觉到蛋白质结构
2.2.AlphaFold2
2.3.AlphaFold3:生成式结构预测
2.4.ESMFold:语言模型与结构预测的融合
3.AlphaFold2 原理回顾
3.1.从共进化到结构
3.2.注意力机制
3.3.EvoFormer
3.4.Structural Module
4.AlphaFold3 介绍
4.1.扩散模型
4.2.训练数据
4.3.AlphaFold3 的成绩与不足
5.AlphaFold2/3 实际操作与结果分析
5.1.AlphaFold2实操*
5.2.AlphaFold2分析*
5.3.AlphaFold server使用*
5.4.本地版的AlphaFold3*
5.5.AlphaFold3分析*
6.ESMFold
6.1.从语言模型到结构预测
6.2.什么时候使用ESMFold,什么时候使用AlphaFold
6.3.ESMFold使用*
三、固定主链蛋白质序列设计
1.传统的蛋白质序列设计
1.1.基于全原子力场*
1.2.基于统计势
2.融入结构知识的语言模型设计蛋白质序列
2.1.ESM-IF原理介绍
2.2.ESM-IF的应用*
3.基于CNN的序列设计
3.1.CNN原理简介
3.2.DenseCPD设计方法
3.3.有侧链构象的设计方法
4.基于GNN设计序列
4.1.ProteinMPNN 的成功经验分析
4.2.ProteinMPNN 的广泛应用
4.3.ProteinMPNN 实际操作*
5.其他的序列设计模型
5.1.ABACUS-R 简介与实际操作*
5.2.CarbonDesign 从结构预测来到序列设计去*
5.3.CARBonAra 环境感知的序列设计*
6.固定主链序列设计在功能蛋白设计中的应用
6.1.新骨架蛋白质表达量优化(Science文章复现)*
6.2.抗体亲和力优化(Science文章复现)*
6.3.结合进化信息的酶性质全方位优化(JACS文章复现)*
四、深度学习蛋白质结构设计
1.传统思路回顾
1.1.结构域拼接
1.2.SCUBA:无侧链的蛋白质力场
2.基于蛋白质表面几何深度学习的binder设计
2.1.masif原理简介
2.2.masif用于识别蛋白表面的PPI热点
2.3.masif设计binder
3.基于扩散模型的蛋白质骨架设计模型
3.1.FrameDiff:基于IPA的主链生成*
3.2.Chroma:等变图神经网络结构设计
3.3.RFDiffusion:基于RosettaFold
3.4.RFDiffusion-All-Atom:基于RosettaFold-All-Atom
4.序列-结构共设计
4.1.trDesign
4.2.AlphaFold Hallucination
4.3.Rfjoint
4.4.Protein Generator
5.结合蛋白从头设计Nature Communication文章流程*
5.1.功能表位的选取
5.2.带限制条件的骨架生成
5.3.迭代优化
6.荧光素酶结构从头设计
6.1.Theozyme理论解释
6.2.骨架生成策略
6.3.活性位点设计与活性进化
五、面向功能的蛋白质序列设计
1.语言的深度学习建模方法
1.1.Transformer
1.2.BERT: Bidirectional Encoder Representations from Transformers
1.3.GPT: Generative Pre-trained Transformers
2.蛋白质语言模型的代表:ESM
2.1.模型框架
2.2.ESM系列工作:ESM-1/2,MSA Transformer,ESM3
2.3.ESM模型实际操作*
3.基于蛋白质语言模型的功能蛋白设计
3.1.预训练+微调的范式
3.2.条件式生成模型:Progen与ZymCTRL
3.3.Progen案例分析
3.4.上手微调ZymCTRL*
4.非自回归的序列生成模型
4.1.ProteinGAN:生成序列
4.2.DeepEvo:生成耐热酶
4.3.Prot-VAE
4.4.P450Diffusion:基于扩散模型设计功能P450*
5.功能蛋白生成后的评估指标
5.1.天然序列相似性评估*
5.2.多样性评估*
5.3.结构合理性评估*
六、基于深度学习的蛋白质挖掘与改造应用
1.酶学性质预测
1.1.DLKcat与GotEnzyme数据库介绍
1.2.UniKP:利用预训练模型挖掘、改造Kcat*
1.3.CLEAN:基于对比学习的EC号预测挖掘稀有脱卤酶*
2.蛋白质热稳定性改造
2.1.MutCompute介绍
2.2.利用MutCompute改造PETase(Nature)*
2.3.ThermoMPNN介绍与使用*
2.4.Pythia介绍与使用*
3.机器学习辅助定向进化/蛋白质工程
3.1.零样本突变效应预测原理
3.2.零样本改造基因编辑酶*
3.3.Low-N策略用于蛋白质工程
3.4.预训练模型的Evo-tuning*
3.5.ECNet介绍
3.6.蛋白质相互作用中的突变效应预测
4.针对自己的实验数据,训练自己的神经网络*
4.1.神经网络训练框架
4.2.数据收集、整理
4.3.特征提取方式
4.4.预训练模型的选取
4.5.模型训练、测试
4.6.新突变的预测
5.深度学习辅助的新酶挖掘*
5.1.基因编辑脱氨酶挖掘(Cell工作复现)
5.2.耐热塑料水解酶挖掘(Nature Communications
5.3.使用FoldSeek进行基于结构的挖掘
可以上下滚动查看
AIDD人工智能药物设计与发现
第一天
1.AIDD概述及药物综合数据库介绍
2.人工智能辅助药物设计AIDD概述
3.安装环境
(1)anaconda
(2)vscode
(3)pycharm
(4)虚拟环境
4.第三方库基本使用方法
(1)numpy
(2)pandas
(3)matplotlib
(4)requests
5.多种药物综合数据库的获取方式
(1)KEGG(requests爬虫)
(2)Chebi(libChEBIpy)
(3)PubChem(pubchempy / requests)
(4)ChEMBL(chembl_webresource_client)
(5)BiGG(curl)
(6)PDB(pypdb)
第二天 ML-based AIDD
1.机器学习
(1)机器学习种类:
①监督学习
②无监督学习
③强化学习
(2)典型机器学习方法
①决策树
②支持向量机
③朴素贝叶斯
④神经网络
⑤卷积神经网络
(3)模型的评估与验证
(4)分类评估:准确率、精确率、召回率、F1分数、ROC曲线、AUC计算
(5)回归评估:平均绝对误差、均方差、R2分数、可释方差分数
(6)交叉验证
2.sklearn工具包基本使用
3.rdkit工具包的基本使用
4.化合物编码方式和化合物相似性理论知识
5.项目实战1:基于ADME和Ro5的分子筛选
6.项目实战2:基于化合物相似性的配体筛选
7.项目实战3:基于化合物相似性的分子聚类
8.项目实战4: 基于机器学习的生物活性预测
9.项目实战5:基于机器学习的分子毒性预测
第三天 GNN-based AIDD
1.图神经网络
(1)框架介绍: PyG,DGL,TorchDrug
(2)图神经网络消息传递机制
(3)图神经网络数据集设计
(4)图神经网络节点预测、图预测任务和边预测任务实战
2.论文精讲:DeepTox: Toxicity Prediction using Deep Learning
3.项目实战1:基于图神经网络的分子毒性预测
(1)SMILES分子数据集构建PyG图数据集
(2)基于GNN进行分子毒性预测
4.项目实战2:基于图神经网络的蛋白质-配体相互作用预测
(1)蛋白质分子图形化,构建PyG图数据集
(2)基于GIN进行网络搭建及相互作用预测
第四天 NLP-based AIDD
1.自然语言处理
(1)Encoder-Decoder模型
(2)循环神经网络 RNN
(3)Seq2seq
(4)Attention
(5)Transformer
2.项目实战1:基于自然语言的分子毒性预测
(1)SMILES分子数据集词向量表示方法
(2)基于NLP模型进行分子毒性预测
3.项目实战2:基于Transformer的有机化学反应产量预测 (Prediction of chemical reaction yields using deep learning)
4.论文精读及代码讲解:《Mapping the space of chemical reactions using attention-based neural networks》
第五天 分子生成与药物设计
1.蛋白质数据库介绍与相关数据爬取
(1)PDB数据库
(2)UniProt数据库
2.蛋白质相关药物设计项目实战
项目实战 (1):基于RDKit的生化反应与蛋白质基本处理
项目实战 (2):基于序列的蛋白质属性预测
项目实战 (3):基于结构的蛋白质属性预测
项目实战 (4):基于NGLView可视化的蛋白质-配体相互作用
项目实战 (5):基于机器学习的蛋白质-配体相互作用亲和力预测
项目实战 (6):基于蛋白质三维结构使用原子卷积网络的进行蛋白质-配体相互作用预测
可以上下滚动查看
CADD计算机辅助药物设计(即报即学)
第一天上午
背景与理论知识以及工具准备
1.PDB数据库的介绍和使用
1.1数据库简介
1.2靶点蛋白的结构查询与选取
1.3靶点蛋白的结构序列下载
1.4靶点蛋白的下载与预处理
1.5批量下载蛋白晶体结构
2.Pymol的介绍与使用
2.1软件基本操作及基本知识介绍
2.2蛋白质-配体相互作用图解
2.3蛋白-配体小分子表面图、静电势表示
2.4蛋白-配体结构叠加与比对
2.5绘制相互作用力
3.notepad的介绍和使用
3.1优势及主要功能介绍
3.2界面和基本操作介绍
3.3插件安装使用
下午
一般的蛋白
-配体分子对接讲解
1.对接的相关理论介绍
1.1分子对接的概念及基本原理
1.2分子对接的基本方法
1.3分子对接的常用软件
1.4分子对接的一般流程
2.常规的蛋白-配体对接
2.1收集受体与配体分子
2.2复合体预构象的处理
2.3准备受体、配体分子
2.4蛋白-配体对接
2.5对接结果的分析
以新冠病毒蛋白主蛋白酶靶点及相关抑制剂为例
第二天
虚拟筛选
1.小分子数据库的介绍与下载
2.相关程序的介绍
2.1 openbabel的介绍和使用
2.2 chemdraw的介绍与使用
3.虚拟筛选的前处理
4.虚拟筛选的流程及实战演示
案例:筛选新冠病毒主蛋白酶抑制剂
5.结果分析与作图
6.药物ADME预测
6.1ADME概念介绍
6.2预测相关网站及软件介绍
6.3预测结果的分析
第三天
拓展对接的使用方法
1.蛋白-蛋白对接
1.1蛋白-蛋白对接的应用场景
1.2相关程序的介绍
1.3目标蛋白的收集以及预处理
1.4使用算例进行运算
1.5关键残基的预设
1.6结果的获取与文件类型
1.7结果的分析
以目前火热的靶点
PD-1/PD-L1等为例。
2.涉及金属酶蛋白的对接
2.1金属酶蛋白-配体的背景介绍
2.2蛋白与配体分子的收集与预处理
2.3金属离子的处理
2.4金属辅酶蛋白-配体的对接
2.5结果分析
以人类法尼基转移酶及其抑制剂为例
3.蛋白-多糖分子对接
4.1蛋白-多糖相互作用
4.2对接处理的要点
4.3蛋白-多糖分子对接的流程
4.4蛋白-多糖分子对接
4.5相关结果分析
以α-糖苷转移酶和多糖分子对接为例
5.核酸-小分子对接
5.1核酸-小分子的应用现状
5.2相关的程序介绍
5.3核酸-小分子的结合种类
5.4核酸-小分子对接
5.5相关结果的分析
以人端粒
g -四链和配体分子对接为例。
操作流程介绍及实战演示
第四天
拓展对接的使用方法
1.柔性对接
1.1柔性对接的使用场景介绍
1.2柔性对接的优势
1.3蛋白-配体的柔性对接
重点:柔性残基的设置方法
1.4相关结果的分析
以周期蛋白依赖性激酶
2(CDK2)与配体1CK为例
2.共价对接
2.1两种共价对接方法的介绍
2.1.1柔性侧链法
2.1.2两点吸引子法
2.2蛋白和配体的收集以及预处理
2.3共价药物分子与靶蛋白的共价对接
2.4结果的对比
以目前火热的新冠共价药物为例。
3.蛋白-水合对接
3.1水合作用在蛋白-配体相互作用中的意义及方法介绍
3.2蛋白和配体的收集以及预处理
3.3对接相关参数的准备
重点:水分子的加入和处理
3.4蛋白-水分子-配体对接
3.5结果分析
以乙酰胆碱结合蛋白
(AChBP)与尼古丁复合物为例
第五天
分子动力学模拟(linux与gromacs使用安装)
1. linux系统的介绍和简单使用
1.1 linux常用命令行
1.2 linux上的常用程序安装
1.3体验:如何在linux上进行虚拟筛选
2.分子动力学的理论介绍
2.1分子动力学模拟的原理
2.2分子动力学模拟的方法及相关程序
2.3相关力场的介绍
3.gromacs使用及介绍
重点:主要命令及参数的介绍
4.origin介绍及使用
第六天
溶剂化分子动力学模拟的执行
1.一般的溶剂化蛋白的处理流程
2.蛋白晶体的准备
3.结构的能量最小化
4.对体系的预平衡
5.无限制的分子动力学模拟
6.分子动力学结果展示与解读
以水中的溶菌酶为例
第七天
蛋白-配体分子动力学模拟的执行
1.蛋白-配体在分子动力学模拟的处理流程
2.蛋白晶体的准备
3.蛋白-配体模拟初始构象的准备
4.配体分子力场拓扑文件的准备
4.1高斯的简要介绍
4.2 ambertool的简要介绍
4.3生成小分子的力场参数文件
5.对复合物体系温度和压力分别限制的预平衡
6.无限制的分子动力学模拟
7.分子动力学结果展示与解读
8.轨迹后处理及分析
以新冠病毒蛋白主蛋白酶靶点及相关抑制剂为例
可以上下滚动查看
机器学习代谢组学
第一天上午:
A1 代谢物及代谢组学的发展与应用
(1) 代谢与生理过程;
(2) 代谢与疾病;
(3) 非靶向与靶向代谢组学;
(4) 空间代谢组学与质谱成像(MSI);
(5) 代谢组学与药物和生物标志物;
(6) 代谢流与机制研究。
A2 代谢通路及代谢数据库
(1) 几种经典代谢通路简介;(2) 三大常见代谢物库:HMDB、METLIN 和 KEGG;
(3) 代谢组学原始数据库:Metabolomics Workbench 和 Metabolights.
A3 参考资料推荐
第一天下午:
A4 代谢组学实验流程简介
A5 色谱、质谱硬件与原理解析
(1) 色谱分析原理与构造;
(2) 色谱仪和色谱柱的选择;
(3) 色谱的流动相:梯度洗脱法;
(4) 离子源、质量分析器与质量检测器解析;
(5) 质谱分析原理及动画演示;
(6) 色谱质谱联用技术(LC-MS);
第二天上午:
B1 代谢物样本处理与抽提
(1) 各种组织、血液和体液等样本的提取流程与注意事项;
(2) 代谢物抽提流程与注意事项;
(3) 样本及代谢物的运输与保存问题;
B2 LC-MS 数据质控与搜库
(1) LC-MS 实验过程中 QC 和 Blank 样本的设置方法;
(2) LC-MS 上机过程的数据质控监测和分析;
(3) 代谢组学上游分析原理——基于 Compound Discoverer 与 Xcms 软件;
(4) Xcms 软件数据转换、提峰、峰对齐与搜库;
第二天下午:
B3 R 语言基础
(1) R 和 Rstudio 的安装;
(2) Rstudio 的界面配置;
(3) R 中的基础运算和统计计算;
(4) R 中的包:包,函数与参数的使用;
(5) R 语言语法,数据类型与数据结构;
(6) R 基础画图;
B4 R 语言画图利器——ggplot2 包(1) ggplot2 简介
(2) ggplot2 的画图哲学;
(3) ggplot2 的配色系统;
(4) ggplot2 数据挖掘与作图实战;
第三天上午:机器学习
C1 有监督式机器学习在代谢组学数据处理中的应用
(1) 人工智能、机器学习、深度学习的关系;
(2) 回归算法:从线性回归、Logistic 回归与 Cox 回归讲起;
(3) PLS-DA 算法:PCA 降维后没有差异的数据还有救吗?
(4) VIP score 的意义及选择;
(5) 分类算法:决策树,随机森林和贝叶斯网络模型;
C2 一组代谢组学数据的分类算法实现的 R 演练
(1) 数据解读;
(2) 演练与操作;
第三天下午:
C3 无监督式机器学习在代谢组学数据处理中的应用
(1) 大数据处理中的降维;
(2) PCA 分析作图;
(3) 三种常见的聚类分析:K-means、层次分析与 SOM
(4) 热图和 hcluster 图的 R 语言实现;
C4 一组代谢组学数据的降维与聚类分析的 R 演练
(1) 数据解析;
(2) 演练与操作;
第四天上午:
D1 在线代谢组分析网页 Metaboanalyst 操作
(1) 用 R 将数据清洗成网页需要的格式;
(2) 独立组、配对组和多组的数据格式问题;
(3) Metaboanalyst 中的上游分析(原始数据峰提取、峰对齐与搜库)
(4) Metaboanalyst 的 pipeline 以及参数设置和注意事项;
(5) Metaboanalyst 的结果查看和导出;(6) Metaboanalyst 的数据编辑;
(7) 全流程演练与操作。
第四天下午:
D2 代谢组学数据清洗与 R 语言进阶
(1) 代谢组学中的 t、fold-change 和响应值;
(2) 数据清洗流程;
(3) R 语言 tidyverse;
(4) 数据预处理:数据过滤与数据标准化(样本的 Normalization 和代谢物的 Scaling);
(5) 代谢组学数据清洗演练;
第五天上午:
E1 文献数据分析部分复现(1 篇)
(1) 文献深度解读;
(2) 实操:从原始数据下载到图片复现;
(3) 学员实操。
第五天下午:
E2 机器学习与代谢组学顶刊解读(3 篇);
(1) Signal Transduction and Targeted Therapy 一篇有关饥饿对不同脑区代谢组学影响变
化的小鼠脑组织代谢图谱类的文献;(数据库型)
(2) Nature communication 一篇胃癌患者血浆代谢组学使用机器学习得出预测模型用于胃
癌的诊断和预后的文献;(血液生物标志物型)
(3) Nature 一篇对胰腺癌患者肠道菌群的代谢组学分析找到可以提高化疗效果的代谢物的
文献。(机制研究型)
可以上下滚动查看
学习目标
一、深度学习在基因组学中的应用
深入学习与了解深度学习基本框架与逻辑,同时掌握基本的生物信息学软件(Linux、R、python等)的使用,让学员能更好的应对基因组数据,挖掘出超越已有知识的新知识。而构建好的深度学习模型去探求新的研究思路和寻找新的潜在生物学机制,更好的服务于自身的科学研究和探索的过程中。
二、深度学习蛋白质设计
本课程围绕蛋白设计基础与前沿工作展开讲述,从蛋白结构的预测与优化到蛋白的从头设计进行深度教学,本课程从零基础开始讲解,对基础知识进行详细讲解,并且会结合前沿文献讲解相关技术的应用。帮助学员们, 通过本次培训学员将了解蛋白质设计的底层逻辑与基本规则,并掌握蛋白质设计中的常见蛋白质设计算法的实际操作,具备基的蛋白质设计算法开发的基础能力及前沿视野。
三、AIDD人工智能药物发现与设计
本课程让学员了解药物发现的前沿背景,学习人工智能领域的各类常见算法,熟悉工具包的安装与使用,掌握一定的算法编程能力,能够运用计算机方法研究药物相关问题。通过大量的案例讲解和实践操作,具备一定的AIDD模型构建和数据分析能力
四、CADD计算机辅助药物设计
掌握包括PDB数据库、靶点蛋白、蛋白质-配体、蛋白-配体小分子、蛋白-配体结构、notepad的介绍和使用、分子对接、蛋白-配体对接、虚拟筛选、蛋白-蛋白对接、蛋白-多糖分子对接、蛋白-水合对接、Linux安装、gromacs分 子动力学全程实操、溶剂化分子动力学模拟
五、机器学习代谢组学
1. 熟悉代谢组学和机器学习相关背景知识以及硬件和软件;2. 入门 R 语言和机器学习理论和常规
使用;3. 掌握代谢组学从样本处理到上下游数据分析以及出图的全流程;4. 能复现 CNS 及其子