随着高通量生物技术的发展,已经开发了多种组学技术来表征不同但互补的生物信息,包括基因组学、表观基因组学、转录组学和代谢组学等,最近的人工智能技术已经从“浅层”学习架构发展到“深度”学习架构。作为人工智能的一个重要分支,机器学习(ML)可以自动学习捕捉复杂的模式,并根据数据做出智能决策。ML在癌症研究和临床肿瘤学中有着非常广泛的应用。特别是,在多组学数据快速增长的推动下,属于ML子领域的基于深度学习(DL)的方法已成为生物医学数据分析的强大工具
近两年部分顶刊发表研究方向
Nature Protocols | 基于机器学习和并行计算的代谢组学数据处理新方法
Nature| 基于机器学习的血清代谢组学开发生物标志物用早期肺腺癌筛查
Cancer Cell | 基于多模态深度学习的泛癌组织学-基因组学整合分析
Science Advances|利用深度学习发现癌症中的新基因突变
Nature|肿瘤微环境的多组学机器学习预测乳腺癌治疗反应
Nature|肺癌和转移瘤中的基因组-转录组进化
Nature Machine Intelligence|单细胞数据分析的深度学习方法
Nature Methods | 用深度多任务神经网络探索单细胞数据
Journal of Medicinal Chemistry报道基于靶标结构的深度学习全新药物设计方法
四大培训主题
助力您发顶刊
MONDAY
专题一:深度学习基因组学
专题二:机器学习代谢组学
专题三:机器学习转录组学与表观组学
专题四:单细胞组学与表观组学
专题一:深度学习基因组学
第一天
理论部分
深度学习算法介绍
1.有监督学习的神经网络算法
1.1全连接深度神经网络DNN在基因组学中的应用举例
1.2卷积神经网络CNN在基因组学中的应用举例
1.3循环神经网络RNN在基因组学中的应用举例
1.4图卷积神经网络GCN在基因组学中的应用举例
2.无监督的神经网络算法
2.1自动编码器AE在基因组学中的应用举例
2.2生成对抗网络GAN在基因组学中的应用举例
实操内容
1.Linux操作系统
1.1常用的Linux命令
1.2 Vim编辑器
1.3基因组数据文件管理, 修改文件权限
1.4查看探索基因组区域
2.Python语言基础
2.1.Python包安装和环境搭建
2.2.常见的数据结构和数据类型
第二天
理论部分
基因组学基础
1.基因组数据库
2.表观基因组
3.转录基因组
4.蛋白质组
5.功能基因组
实操内容
基因组常用深度学习框架
1.安装并介绍深度学习工具包tensorflow, keras,pytorch
2.在工具包中识别深度学习模型要素
2.1.数据表示
2.2.张量运算
2.3.神经网络中的“层”
2.4.由层构成的模型
2.5.损失函数与优化器
2.6.数据集分割
2.7.过拟合与欠拟合
3.基因组数据处理
3.1安装并使用keras_dna处理各种基因序列数据如BED、 GFF、GTF、BIGWIG、BEDGRAPH、WIG等
3.2使用keras_dna设计深度学习模型
3.3使用keras_dna分割训练集、测试集
3.4使用keras_dna选取特定染色体的基因序列等
4.深度神经网络DNN在识别基序特征中应用
4.1实现单层单过滤器DNN识别基序
4.2实现多层单过滤器DNN识别基序
4.3实现多层多过滤器DNN识别基序
第三天
理论部分
卷积神经网络CNN在基因调控预测中的应用
1.Chip-Seq中识别基序特征G4,如DeepG4
2.Chip-Seq中预测DNA甲基化,DeepSEA
3.Chip-Seq中预测转录调控因子结合,DeepSEA
4.DNase-seq中预测染色体亲和性,Basset
5.DNase-seq中预测基因表达eQTL,Enformer
实操内容
复现卷积神经网络CNN识别基序特征DeepG4、非编码基因突变DeepSEA,预测染色体亲和性Basset,基因表达eQTL
1.复现DeepG4从Chip-Seq中识别G4特征
2.安装selene_sdk,复现DeepSEA从Chip-Seq中预测DNA甲基化,非编码基因突变
3.复现Basset,从Chip-Seq中预测染色体亲和性
4.复现Enformer,从Chip-Seq中预测基因表达eQTL
第四天
理论部分
深度学习在识别拷贝数变异DeepCNV、调控因子DeepFactor上的应用
1.SNP微阵列中预测拷贝数变异CNV,DeepCNV
2.RNA-Seq中预测premiRNA,dnnMiRPre
3.从蛋白序列中预测调控因子蛋白质,DeepFactor
实操内容
1.复现DeepCNV利用SNP微阵列联合图像分析识别拷贝数变异
2.复现循环神经网络RNN工具 dnnMiRPre,从RNA-Seq中预测premiRNA
3.复现DeepFactor,从蛋白序列中识别转录调控因子蛋白质
第五天
理论部分
深度学习在识别及疾病表型及生物标志物上的应用
1.从基因表达数据中识别乳腺癌分型的深度学习工具DeepType
2.从高维多组学数据中识别疾病表型,XOmiVAE
3.基因序列及蛋白质相互作用网络中识别关键基因的深度学习工具DeepHE
实操内容
1.复现DeepType,从METABRIC乳腺癌数据中区分乳腺癌亚型
2.复现XOmiVAE,从TCGA多维数据库中识别乳腺癌亚型
3.复现DeepHE利用基因序列及蛋白质相互作用网络识别关键基因
第六天
理论部分
深度学习在预测药物反应机制上的应用
1.联合肿瘤基因标记及药物分子结构预测药物反应机制的深度学习工具SWnet
实操内容
1.预处理药物分子结构信息
2.计算药物相似性
3.在不同数据集上构建self-attention SWnet
4.评估self-attention SWnet
5.构建多任务的SWnet
6.构建单层SWnet
7.构建带权值层的SWnet
案例图片:
专题二:机器学习代谢组学
第一天
A1 代谢物及代谢组学的发展与应用
(1) 代谢生理功能;
(2) 代谢疾病;
(3) 非靶向与靶向代谢组学;
(4) 空间代谢组学与质谱成像(MSI);
(5) 代谢流与机制研究;
(6) 代谢组学与药物和生物标志物。
A2 代谢组学实验流程简介
A3 色谱、质谱硬件原理
(1) 色谱分析原理;
(2) 色谱的气相、液相和固相;
(3) 色谱仪和色谱柱的选择;
(4) 质谱分析原理及动画演示;
(5) 正、负离子电离模式;
(6) 色谱质谱联用技术;
(7) LC-MS 的液相系统
A4 代谢通路及代谢数据库
(1) 几种经典代谢通路简介;
(2) 能量代谢通路;
(3) 三大常见代谢物库:HMDB、METLIN 和 KEGG;
(4) 代谢组学原始数据库:Metabolomics Workbench 和Metabolights.
第二天
B1 代谢物样本处理与抽提
(1)组织、血液和体液样本的提取流程与注意事项;
(2)用 ACN 抽提代谢物的流程与注意事项;
(3)样本及代谢物的运输与保存问题;
B2 LC-MS数据质控与搜库
(1)LC-MS 实验过程中 QC 样本的设置方法;
(2)LC-MS 上机过程的数据质控监测和分析;
(3)XCMS 软件数据转换与提峰;
B3 R软件基础
(1)R 和 Rstudio 的安装;
(2)Rstudio 的界面配置;
(3)R 的基本数据结构和语法;
(4)下载与加载包;
(5)函数调用和 debug;
B4 ggplot2
(1)安装并使用 ggplot2
(2)ggplot2 的画图哲学;
(3)ggplot2 的配色系统;
(4)ggplot2 画组合图和火山图;
第三天
机器学习
C1无监督式机器学习在代谢组学数据处理中的应用
(1)大数据处理中的降维;
(2)PCA 分析作图;
(3)三种常见的聚类分析:K-means、层次分析与 SOM
(4)热图和 hcluster 图的 R 语言实现;
C2一组代谢组学数据的降维与聚类分析的 R 演练
(1)数据解析;
(2)演练与操作;
C3有监督式机器学习在代谢组学数据处理中的应用
(1)数据用 PCA 降维处理后仍然无法找到差异怎么办?
(2)PLS-DA 找出最可能影响差异的代谢物;
(3)VIP score 和 coef 的意义及选择;
(4)分类算法:支持向量机,随机森林
C4一组代谢组学数据的分类算法实现的 R 演练
(1)数据解读;
(2)演练与操作;
第四天
D1 代谢组学数据清洗与 R 语言进阶
(1)代谢组学中的 t、fold-change 和响应值;
(2)数据清洗流程;
(3)R 语言 tidyverse
(4)R 语言正则表达式;
(5)代谢组学数据过滤;
(6)代谢组学数据 Scaling 原理与 R 实现;
(7)代谢组学数据的 Normalization;
(8)代谢组学数据清洗演练;
D2在线代谢组分析网页 Metaboanalyst 操作
(1)用 R 将数据清洗成网页需要的格式;
(2)独立组、配对组和多组的数据格式问题;
(3)Metaboanalyst 的 pipeline 和注意事项;
(4)Metaboanalyst 的结果查看和导出;
(5)Metaboanalyst 的数据编辑;
(6)全流程演练与操作
第五天
E1机器学习与代谢组学顶刊解读(2-3 篇);
(1)Nature Communication 一篇代谢组学小鼠脑组织样本 database 类型的文献;
(2)Cell 一篇代谢组学患者血液样本的机器学习与疾病判断的文献;
(3)1-2 篇代谢组学与转录组学和蛋白组学结合的文献。
E2 文献数据分析部分复现(1 篇)
(1)文献深度解读;
(2)实操:从原始数据下载到图片复现;
(3) 学员实操。
案例图片:
专题三:机器学习转录与表观组学
第一天
理论部分
高通量测序原理
高通量测序基础
测序方法及数据
二代测序数据分析流程
实操内容
R语言基础
R(4.1.3)和Rstudio的安装
R包安装和环境搭建
数据结构和数据类型
R语言基本函数
数据下载
数据读入与输出
第二天
理论部分
多组学基础
常用生物组学实验与分析方法
常用组学数据库介绍
批量处理组学数据
生物功能分析
基于转录组学的差异基因筛选,疾病预测
组学数据可视化
实操内容
Linux操作系统
Linux操作系统的安装与设置
网络配置与服务进程管理
Linux的远程登录管理
常用的Linux命令
在Linux下获取基因数据
利用Linux探索基因组区域
Shell script与Vim编辑器
基因组文件下载与上传
Linux权限管理
文件的身份
修改文件的所有者和所属组
修改文件权限
第三天
理论部分
介绍转录组学的基本概念和研究流程
RNA-seq数据的预处理和质量控制
序列比对和对齐评估
基因表达量估计和差异表达分析
实操内容
转录组测序数据质量控制
转录组数据比对
RNA-seq数据原始定量
主成分分析
原始定量结果差异分析
差异结果筛选及可视化
GO和KEGG通路富集分析
GSEA基因集富集分析
第四天
理论部分
表观遗传学的基本概念和技术介绍
DNA甲基化和组蛋白修饰的分析方法
表观组数据的预处理和质量控制
差异甲基化和差异修饰分析
甲基化和修饰的功能注释和富集分析
甲基化数据的整合分析和基因调控网络构建
表观组数据的可视化方法和工具
介绍其他表观组学技术(如染色质构象捕获)
实操内容
测序数据质量控制和检查
数据比对和多匹配问题
计算结合峰位置
IGV中组学结果可视化
差异peaks分析
结合程度矩阵计算
富集热图和曲线图绘制
第五天
理论部分
机器学习概述
线性模型
决策树
支持向量机
集成学习
模型选择与性能优化
实操内容
决策树算法实现
随机森林算法实现
支持向量机(SVM)算法实现
朴素贝叶斯算法实现
Xgboost算法实现
聚类算法实现
DBSCAN算法实现
层次聚类算法实现
第六天
理论部分
基因功能注释和富集分析
WGCNA(Weighted Gene Co-expression Network Analysis)网络分析
转录因子分析和调控网络构建
转录组数据的可视化方法和工具
转录水平预测蛋白翻译水平
实操内容
创建Seurat对象
数据质控
测序深度差异及标准化
单细胞数据降维
批次效应去除
数据整合
亚群注释
GSVA通路活性分析
单细胞富集分析
案例图片:
专题四:单细胞组学与表观组学
第一天
基础入门理论与实操
R语言安装数据处理分析与绘图
1. R语言简介及安装,RStudio的安装及使用说明
2. R语言语法介绍及常用简单命令
3. 数据处理及统计
4. R语言画图及ggplot2简介
Linux命令简介与实操
1. Linux命令入门讲解及实操训练
2. Conda环境安装与简介
第二天
理论讲解:
1. ATAC-seq数据质控与高级分析
2. CUT&Tag数据质控与高级分析
实际操作:上机演示
1. ATAC-seq和CUT&Tag数据质控与高级分析
2. 个性化分析:Motif、转录因子等
3. MEME网页-Motif预测
4. 表观组的结果解读
第三天
单细胞组学专题理论与实操
单细胞建库原理与操作
1. 样本获取和保存
2. 单细胞实验处理、建库、测序
3. 获取单细胞表达矩阵(RNAseq流程)
实操内容
1. 10X官方单细胞软件Cellranger的讲解;
2. 质控基因和细胞;
3. 选取高可变基因;
4. 降维与分群;
5. Biomarker定义细胞类型;
6. 寻找差异基因;
6. 通过Seurat 合并多样本及消除样本异质性;
7. 通过harmony合并多样本及其消除样本异质性;
8. 通过GSEA对单细胞各个簇进行通路的功能富集分析。
第四天 单细胞高级分析
1. 单细胞转录因子(SCENIC)及其细胞通讯(Cellchart)的介绍
2. 单细胞拟时分析的简介
3. 利用AUCell对单细胞进行基因集打分的简介
4. 结合bulk WGCNA讲解单细胞scWGCNA的原理
实操内容:
1. 通过Monocle2软件对单细胞转录组进行拟时序的分析;
2. 利用AUCell的算法对单细胞进行基因集打分的实操
4. 利用cellchart软件对细胞互作进行分析。
5. 讲解单细胞WGCNA,利用关联共表达找到某些细胞中有关联作用的基因list(这里统一指模块分析)。
6. 全面解析SCENIC软件进行转录因子预测分析。
培训目标
深度学习基因组学:课程从全局出发,由浅入深,课程通过基础入门+应用案例实操演练的方式,从最初的原理讲解到最后的应用实战,学完本课程你将掌握基因编辑技术的相关原理及其应用,此外可以学到基因编辑系统的优化策略,可以学到如何操作常用的生物学软件。能够快速运用到自己的科研项目和课题上。
机器学习代谢组学:熟悉代谢组学和机器学习相关硬件和软件;熟悉代谢组学从样本处理到数据分析的全流程;能复现至少1篇CNS或子刊级别的代谢组学文章图片。
机器学习转录组学与表观组学:本课程学员将学习如何处理和分析转录组和表观组数据,并深入了解这两个领域的关键概念和最新发展。课程内容包括Linux操作系统的基础知识和常用命令行技巧,R编程语言的应用,转录组数据的预处理和差异表达分析,表观组数据的分析方法,以及综合应用和实际项目实践。此外,课程还注重培养学员独立进行转录组和表观组学研究的能力,为他们在这一领域的进一步发展和应用打下坚实的基础。
讲师简介
深度学习基因组学主讲老师刘老师,生物信息学博士,有十余年的测序数据分析经验。研究领域涉及人工智能、自然语言处理、功能基因组学、转录组学、miRNA及靶基因网络分析,单细胞测序数据分析,基因调控网络时序分析,蛋白质互作网络分析,多组学联合分析等。主持省自然科学基金等项目4项,出版医学实用教材《Python医学实战分析》,发表SCI论文22篇,其中一作及并列一作9篇。
机器学习代谢组学主讲老师来自985高校神经科学博士,主要利用代谢组学、转录组学和分子生物学等技术研究神经内科慢性病的发病机制和生物标志物。擅长高效液相色谱-质谱联用(LC-MS)技术进行非靶向和靶向代谢组学从样本制备到数据分析的全流程研究,以及多组学大数据的生物信息学整合分析。5年内在J Clin Invest, EBioMedicine, Cell Death Dis, Cell Death Discov, Nanotoxicology等杂志发表SCI论文10篇。
单细胞组学与表观组学主讲老师来自国内高校陈老师和刘老师授课。在国内外学术刊物发表论文数篇,包括NatureCommunication,CellRegeneration等知名期刊,研究方向主要为生物信息学,发育生物学和遗传学等。利用多组学数据,通过深度学习算法进行数据分析和挖掘,包括ChIP-seq,ATAC-seq,RNA-seq,CNV等,解决并回答领域内多个基础的生物学机制。
培训特色及福利
学员好评截图
课程特色
1、课程特色--全面的课程技术应用、原理流程、实例联系全贯穿
2、学习模式--理论知识与上机操作相结合,让零基础学员快速熟练掌握
3、课程服务答疑--主讲老师将为您实际工作中遇到的问题提供专业解答
福利及授课方式:
福利:报名缴费成功赠送报名班型全套预习视频,课后学习完毕提供全程录像视频回放,针对与培训课程内容进行长期答疑,微信解疑群永不解散,参加本次课程的学员可免费再参加一次本单位后期组织的相同的专题培训班(任意一期都可以)
授课方式:通过腾讯会议线上直播,理论+实操的授课模式,老师手把手带着操作,从零基础开始讲解,电子PPT和教程开课前一周提前发送给学员,所有培训使用软件都会发送给学员,有什么疑问采取开麦共享屏幕和微信群解疑,学员和老师交流、学员与学员交流,培训完毕后老师长期解疑,培训群不解散,往期培训学员对于培训质量和授课方式一致评价极高!
授课时间及地点
深度学习基因组学
2023.11.11----2023.11.12全天授课(上午09.00-11.30下午13.30-17.00)
2023.11.14----2023.11.15晚上授课(晚上19.00-22.00)
2023.11.18----2023.11.19全天授课(上午09.00-11.30下午13.30-17.00)
2023.11.20----2023.11.21晚上授课(晚上19.00-22.00)
机器学习转录组学与表观组学
2023.11.04----2023.11.05 全天授课(上午09.00-11.30 下午13.30-17.00)
2023.11.06----2023.11.07晚上授课 (晚上 19.30-22.30)
2023.11.11----2023.11.12全天授课(上午09.00-11.30 下午13.30-17.00)
机器学习代谢组学
2023.11.04----2023.11.05全天授课(上午09:00-11:30下午13:30-17:00)
2023.11.14----2023.11.15 晚上授课(晚上19:00-22:00)
2023.11.11----2023.11.12全天授课(上午09:00-11:30下午13:30-17:00)
单细胞组学与表观组学
2023.11.11----2023.11.12全天授课(上午09.00-11.30下午13.30-17.00)
2023.11.18----2023.11.19全天授课(上午09.00-11.30下午13.30-17.00)
线上授课地点:腾讯会议
报名费用
深度学习基因组学;机器学习转录组学与表观组学;
公费价:每人每班¥5880元 (含报名费、培训费、资料费)
自费价:每人每班¥5480元 (含报名费、培训费、资料费)
机器学习代谢组学;单细胞组学与表观组学;
公费价:每人每班¥4680元 (含报名费、培训费、资料费)
自费价:每人每班¥4280元 (含报名费、培训费、资料费)
优惠
优惠1:两班同报:9880元
三班同报:13880元
四班同报:17680元
优惠2:提前报名缴费可享受300元优惠(仅限十五名)
报名学习课程可赠送往期机器学习生物医学,机器学习单细胞,单细胞空间转录组,机器学习蛋白组学,深度学习单细胞,比较基因组学等视频回放,需要可咨询下方联系老师
证书:参加培训并通过考试的学员,可以申请获得工业和信息化部工业文化发展中心颁发的“工业强国建设素质素养提升尚工行动”岗位能力适应评测证书。该证书可在中心官网查询,可作为能力评价,考核和任职的重要依据。评测证书查询网址:www.miit-icdc.org(自愿申请,须另行缴纳考试费500元/人)