经典入门 | 高级转录组分析和R数据可视化（2024.12）

生信宝典

2024-10-24 21:00发布于北京

福利公告：为了响应学员的学习需求，经过易生信培训团队的讨论筹备，现安排《高级转录组分析和R数据可视化》于2024年9月20-22线上/线下课程 (线上课是通过腾讯会议实时直播线下课，实时互动，并录制有视频回放，无限期观看)。报名参加线上直播课的老师可在365天内选择参加同课程的一次线下课 。期待和大家的线上线下相识。

相关课程

转录组线上/线下开课时间：2024/12/06-08, 2025/03/21-23
临床基因组学线上/线下开课时间：2023/11/17-19
宏基因组线上/线下开课时间：2024年11月8-10
扩增子线上/线下开课时间：2025/4/11-13

转录组的测序分析也相对成熟，从RNA提取、构建文库、上机测序再到结果解析既可以自己完成，又可以在专业公司进行。

概括来看转录组的分析流程比较简单，序列比对-转录本拼接 (可选)-表达定量-差异基因-功能富集-定制分析。整个环节清晰流畅，可以作为最开始接触高通量测序学习最合适的技术之一。

但重点和难点在于理解这些过程都是怎么做的，有什么需要注意的，结果怎么解读，后续分析怎么做。这些只有自己动手操作过，才可能有理解。而理解了一个，再去做其它类型分析，也会轻松很多。

实验设计这块重要的是对照和至少3个生物学重复，并选择合适的测序通量。ENCODE要求重复之间的Spearman correlation值大于0.9 (遗传背景不一致的生物重复相关系数要大于0.8)。定量基因表达和评估转录图谱相似性只需要中等测序深度；而研究新转录本和可变剪接则需要更深的测序；一般来讲长RNA-seq文库测序深度满足可用reads在20-30 million (如果测PE150，换算成碱基数为6G-9G)。

另外一个需要注意的是测序的批次效应，保证自己的样品同时处理、RNA同时提取、同时构建文库和上机测序。这些环节虽然不能总受我们控制，但记录下对应的操作时间和批次，最后在绘制表达图谱时与实验相关参数进行关联展示 (利用我们介绍的热图简化或高颜值免费在线绘图工具升级版来了~~~)，从而保证结果没有受到试验中处理批次的影响。ENCODE计划有一篇文章在比较人和小鼠不同组织的表达谱相似度时得到的结果是样品按物种而非组织聚在一起，这与之前认为的发育通路的保守性不符。后来发现是测序批次捣的鬼，做了批次效应矫正后，表达图谱按组织而非物种聚在一起了（高通量数据中批次效应的鉴定和处理 - 系列总结和更新）。

测序环节通常不需要自己操作，测序公司都很成熟，但测序的原理需要知道。这会影响到后续分析时参数的选择，比如知道什么是插入片段大小，什么是链特异性测序，什么情况会有接头序列，双端测序如何测等。

获得数据后，就涉及到数据的传输和质量评估(也包括如何从公共数据库下载数据)和文件格式的转换。FASTQ格式解释和质量评估中有些提及。质量评估的意义在于从测序质量角度评价建库和测序的成功与否，指导接头和低质量碱基的去除。这一步参数控制的严格与否对后续的比对会有影响，同时也会受到后续分析选择的工具的影响。对Linux系统一定程度的了解，是进行这些工作的基础。

工具比较类文章一般只告诉你做了什么，不告诉你这么做的原因是什么，而且每一步细分开来又有很多小细节需要注意，比如在比对环节就会涉及到：不同的样本如何选择合适的基因组和注释文件，什么样的软件支持Junction reads的比对，什么样的比对率是合适的，比对质量怎样，测序中RNA有无降解或选择偏好性，测序饱和度如何等。

这些可能都不会体现在最终的结果中，但都是确保后期结果可靠性所必须要做的事情。2002年诺贝尔奖得主Sydney Brenner曾对数据分析做过提醒Garbage in, Garbage out。软件是死的，提供了格式正确的输入，就可以得到输出，但输出正确与否，就得靠人的经验来判断了。

在后面的差异基因鉴定阶段，还存在把FPKM值转换为整数再提交给DESeq2做分析的，软件不报错，但结果不对。或者能顺着教程运行DEseq2分析，但换成自己的数据就不知道如何下手的（DESeq2差异基因分析和批次效应移除）。这些问题都需要在实践过程中持续不断的试错、阅读更多的文章和教程来步步矫正。

做下测试题看看了解多少？

这当然是一个耗时耗力的过程，那么有没有一个更好的方式呢？

那就是第二十一期高级转录组分析和R数据可视化

基于以往20次转录组培训，转录组课程内容成熟，可以在最短的时间学会最多的知识。

之前的培训重点都在前面的流程分析，这次做了调整，流程分析整理一个清晰的输入、输出框架，包装好的流程脚本和参数注意，快速实战操作从源头。重点调整到后续的定制分析和绘图，涉及常见GO分析、单细胞转录组的聚类分析、配对样品和时间序列样品的GSEA富集分析、结合motif预测和转录因子ChIP的调控网络分析、定制化图形绘制、Cytoscape进行富集分析、调控网络、通路的可视化，目标基因筛选和可视化, WGCNA加权共表达网络分析，机器学习，ceRNA网络。

每部分都提供清晰的思维导图方便理解输入、输出、命令、参数和注意事项。

第二十期高级转录组分析和R数据可视化在于2024年4月19日在线开班，将系统讲述基于和不基于比对的转录组分析流程，从原始数据到表达矩阵、差异基因、可变剪接、富集分析、加权共表达网络、通路分析、可视化绘图，ceRNA，机器学习等一系列常见操作，理论和实践兼备。

课程大纲

请详细阅读课程简介，如果以下内容您全精通，不必参加此培训。

每节课1小时一个主题，理论结合实战，学懂原理，实战实操，全是老司机多年经验、流程和代码的无私分享，手把手带您快速入门、节约宝贵的时间，助力科研成果早日产出。

下面是课程安排，本课程一共3天，每天6节课，共18节课，全部课程均理论与实战结合(只要课上讲的都是可以学会并自己实现的分析)。如11代表第一天第一节课，26代表第二天第六节课，41为两周后的不定期线上集中视频答疑和后续的讨论群永久答疑。

该课程为第13期，经过12次迭代更新，整个过程都比较成熟，可以在最短时间学习最多知识。3天时间，老司机带您完成自学需要3个月甚至是1年的崎岖之路，助力您真正玩转转录组分析，并根据自己课题的背景优化分析方案。（课程内容和顺序每次会略有调整，不同的测重点。重代码，轻操作）

编号	内容	简介
01	视频学习Linux基础	预付后提供学习视频
02	视频学习R基础	预付后提供学习视频
03	软件安装	预付后提供安装视频
04	支付全款	提供全部视频用作预习
11	转录组概述	转录组设计、应用、批次效应等
12	转录组分析流程简介	基于/不基于比对的分析流程讲演
13	Salmon定量实战	不基于比对直接定量基因和转录本的表达
14	差异基因分析	DESeq2多组差异基因分析、热图、火山图
15	GO富集分析和可视化	泡泡图、热图、网络图、弦图
16	GSEA富集分析和可视化	分组和时间序列GSEA
21	二代三代测序原理介绍	建库测序过程及注意事项
22	原始数据比对回基因组	STAR比对和定量
23	基于count的差异基因	批次效应鉴定和移除
24	Linux下转录组环境配置	Conda软件安装、配置
25	基因组浏览器数据可视化	IGV呈现reeads比对、峰图、Sashimiplot
26	转录本拼装StringTie	可变剪接分析rMATS （选学，视频课）
31	文章常见图表绘制和解读	Illustrator制作CNS标准图版（视频课）
32	WGCNA基因加权共表达	网络分析和性状关联
33	非编码lncRNA鉴定	ceRNA分析 (miRNA-lncRNA-gene调控选学，视频课)
34	无参转录组分析	Trinity组装 eggnog注释（选学，视频课）
35	转录调控分析	转录调控网络
36	Marker基因鉴定	PCA，随机森林
41	答疑-线上	答疑、考试内容串讲

教程内容简介如下：

转录组分析平台搭建

服务器平台：没有软件的计算机只是一堆废铁，没有转录组分析系统的服务器也和你的数据分析没有半毛钱关系。想要搭建整套的转录组分析流程，网上的资源即零散、又稀少。易生信团队将分享多年经验摸索优秀软件和布置技巧，并分享全部源代码，让你在主流Linux服务器系统(Ubuntu 16/18.04，CentOS7等主流发行版)上快速布置专注组分析流程依赖的几十款常用软件、几百个依赖的R和Python包，轻松拥有专业分析平台。

个人计算机平台：高通量测序所谓的大数据，都是在原始数据和分析过程中体量大，计算资源需求多，但结果文件不大。通常转录组分析会获得样品基因表达表、新转录本和非编码基因，这些表格是下游分析、高级分析以及个性分析的起点，绝大部分工作在我们的笔记本上是可以搞定的，只是很多人并不知道如何入手。

其实你的个人电脑就是数据表(丰度矩阵)统计分析的利器。易生信团队独创实现了跨平台的分析流程，在大家的Windows笔记本上可以轻松实现转录组统计、可视化的绝大多数分析，课程带你轻松在自己的本本上搭建数据表统计分析与可视化平台，基于目前最主流的Win10进行优化和测试，让笔记本秒变数据分析可视化平台。

生信基础知识

有了生信分析平台，如何灵活运用还是要学点独门绝学的。21世纪最重要的是人才，人才最好掌握三门语言，将让你人生立于不败之地，在任何团队中都是不可或缺的人才。这三门语言就是中文、英文和计算机语言。中文每天都在用在学，英文对于博士也至少接触了10年以上并能应用于阅读和写作文献，而编程语言大家大学阶段都学过Visual Basic、Visual Foxpro、或C语言，但能在工作中应用的绝对凤毛麟角。更何况这些语言在生命科学领域是非常低效的，不提倡学习。

生信中最常用的三类语言是·Shell + R + Python/Perl·，前两门是基础，生物学家必要掌握的Shell和R语言基础知识，保证你完成项目分析。我们在课上将同时讲解生物学家必要掌握的Shell和R语言基础知识，保证你高效、稳定的使用转录组分析平台、保证大数据分析和后期可视化至发表阶段所需的技能。我们在文后提供了学习视频供提前预习。

当你利用几个小时，走进大数据分析和可视化的大门后，你将发现一个全新的世界。很多人会感觉相见恨晚，爱上分析，从此走向人生的快车道。即使你对编程不感兴趣，这里面用到的理念也定能让你受益终身，在今后相关分析中事半功倍，比别人更胜一筹。再说现在连小学生都学Python了，再不会，孩子都带不好了。