客户端
游戏
无障碍

1

评论

1

分享

手机看

微信扫一扫,随时随地看

【陈巍学基因】视频:CUT&Tag 分析报告解读

Thumbplayer Poster Plugin Image
播放
下一个
打开循环播放
00:00
/
00:00
倍速
3.0X
2.0X
1.5X
1.25X
1.0X
0.75X
0.5X
语言
多音轨
AirPlay
0
静音播放中,点击 恢复音量
画中画
网页全屏
全屏
error-background
你可以 刷新 试试
视频信息
1.33.6
播放信息 上传日志
视频ID
VID
-
播放流水
Flowid
-
播放内核
Kernel
-
显示器信息
Res
-
帧数
-
缓冲健康度
-
网络活动
net
-
视频分辨率
-
编码
Codec
-
mystery
mystery
-

按住画面移动小窗

X
视频内容简介
CUT&Tag 是新出现的研究特定蛋白质与染色质 DNA 相互作用的新技术,用这种技术得到的海量数据,需要经过生物信息学分析,变成大量的图和表,以方便科学家进行研究。
本视频详细解读 CUT&Tag 标准分析报告中的各种图表,让 CUT&Tag 的用户可以更好地理解报告的内容,并更容易地发掘出报告中有用的信息。
视频字幕内容
CUT&Tag 是新的研究特定蛋白质与染色质 DNA 相互作用的新技术。但是实验和生物信息分析做完之后,拿到的分析报告中有一大堆的图和表,我们要如何来解读这些图和表?
大家好,欢迎来到【陈巍学基因】。今天我要给大家讲《CUT&Tag 分析报告解读》。
CUT&Tag 是新出现的研究特定蛋白质与染色质 DNA 相互作用的新技术,用这种技术得到的海量数据,需要经过生物信息学分析,变成大量的图和表,以方便科学家进行研究。
我们今天的这个讲座,就是给大家来解读 CUT&Tag 标准分析报告中的各种图和表。
我们今天讲解的内容,分成 3 个部分:
1,Peak 分析
2,Motif 分析
3,Peak 关联基因分析
我们先来说第一部分,Peak 分布。
这是测序得到的 Reads 在全基因组的直观分布图。图中的纵轴,从上到下,排列的是人的 23 条染色体。横轴排列的是每一条染色体的全部序列。
图片
在染色体序列上,一个个高出的峰,就是 Peak。就是覆盖在上面的测序 reads 堆叠起来的高度。
一个位置的 peak 越高,说明富集在这个位置的 reads 数越多,也同时说明被检测的目标蛋白对染色体的这个位置有越强的吸附能力。
图中红色的 peak 是正链 reads,绿色的 peak 是负链 reads。
图片
这是对数据进行分析之后,找出大量的 peak 的列表的实例,这里只展示了表头和许多行数据中的前三行。
从第 1 列到第 4 列,标出了 peak 所在的染色体的座标位置,以及 peak 在染色体上横向占据的长度。
第 5 列,“summit”是这个 peak 的峰尖对应的染色体的座标位置。
第6列,“Pileup”是这个峰上堆叠的 reads 形成的高度。
第 7 列,“P-value 的 log10 指数的负值”,是这个峰的显著程度。
第 9 列,是“Q-value 的 log10 指数的负值”,Q-value 是 P-value 经过 FDR 修正后得到的值。
第 8 列,“fold_enrichment”则显示了这个峰的上堆叠的 reads 数,相对于本底,富集的倍数。
最后,第 10 列“name”是软件给这个峰起的一个编号。
图片
这是测序得到的文库插入片段的长度分布图。插入片段的长度也就是测度文库分子中间这段插入片段的长度。
我们可以从片段长度的分布图中看到 2-3 个比较明显的峰。形成这种峰的原因是,CUT&Tag 实验中用到的 Tn5 酶很容易切割裸露的 DNA,而不切割被核小体保护的 DNA。所以,紧挨着目标蛋白两侧切割出的短片段峰,和 180BP 和 360BP这些被核小体卷绕的 DNA 长度的整数倍数的片段会是最多的,堆起来就形成了我们看到的峰。
图片
左图中,是 Peak 的按长度分布图,把 Peak 按长度分成 50 个区间,横轴是 peak 的长度,纵轴是每个区间中 peak 的数量,这样得到一个 Peak 长度的分布图。
右图中,是 Peak 的覆盖深度分布图,横坐标表示 peak 的深度,纵坐标是大于等于这个深度的 peak 占全部 peak 的比例。
图片
这是 Peak 在各种基因功能元件上的分布图。包括了:启动子区,5’端和3’端的非翻译区,外显子和内含子,基因与基因之间的区域。
图片
这是 reads 在基因体以及基因体上下游 2K 区分布的统计图。可以看到,这个蛋白质得到的大部分的 reads 是集中在了基因转录起始位置前一点的位置,也就是基因的 promoter 区域。
图片
这是 reads 在 peak 及其上下游 2K 区域的分布情况,基本上呈现一个峰的样子,中间高两边低,两边的坡呈现一定程度的对称性。
第 2 部分,我们来讲 motif 分析。
Motif 是特定蛋白质与 DNA 结合中的一个重要指标。Motif 原意是指一段音乐中反复出现的旋律,或者图案中反复出现的样式。
motif 在蛋白与 DNA 结合的分子生物学中,表示被特定蛋白质结合的 DNA 片段中反复出现的 DNA 序列。Motif 也可以被认为是特定蛋白能够亲合吸附的 DNA 序列。
图片
图中,就是一个蛋白用 CUT&Tag 方法得到的 4 个 motif。
“LOGO”是“特征”的意思,LOGO 中字母的高度越高,就意味着这个字母所代表的碱基在这个位置出现的概率越高。
“E-value”的数值越小,则这个 motif 的特征性越强。
“Sites”是指这个 motif 在多少个峰中有出现。
“Width”是指这个 motif 的有多少个碱基的宽度。
点击“more”,可以看到更多的详细内容。
图片
这是点击“more”之后,报告展示出的 motif 所在的峰的细节。
“Name”,是 peak 的编号和 peak 所在的染色体的位置。
“Strand”,是指峰在正义链还是反义链,正义链用“+”号表示,反义链用“-”号表示。
“Start”是指这个 motif 在峰的第几个碱基开始的。
“P-value”是指在随机序列中出现这个序列的概率。P-value 的值越小,则显著性越高。
“Sites”是展示了这个峰在对应于这个 motif 的序列,以及 motif 前后若干个碱基的序列。
图片
对于找到的 motif,可以进行与 JASPAR 等转录因子数据库进行对比,看 CUT&Tag 方法找到的 motif,是否有与数据库中已知的 motif 有相似的。
这里的“List”,就是展示了找到的数据库中相似的 motif,点击这个 motif,可以展开数据库中关于这个 motif 的信息。
这是点击找到的数据库中的 motif 之后,可以看到的更加详细的信息。
第 3 部分,我们来讲 Peak 关联基因分析。
做 CUT&Tag 分析,要进一步研究被这个特定蛋白所调控的基因能起的作用,以及这被结合、被调控的基因有哪些生物学功能。
这个表,就是展示 peak 关联到的基因的分析结果。
“name”是软件在分析过程中给这个 peak 起的编号。
“Gene”是这个 peak 所靠近的这个基因的名字。
接下来的 3 列,是这个基因在 GO 数据库中的 3 个方面的条目内容,关于 GO 数据库的内容后面我们会进一步介绍。
最后的 1 列,是这个基因在 KEGG 数据库中的条目中的内容,关于 KEGG 数据库中的内容,我们后面也会进一步介绍。
图片
GeneOntology 是一个重要的生物信息学网站。这个网站目的是统一所有物种的基因和基因产物属性的表示方式。同时,这个网站也是一个庞大的生物信息数据库。在生物信息学分析中,常用这个数据库查找基因的属性。
GeneOntology 的首字母缩写是“GO”,所以查阅 GeneOntology 数据库进行生物信息学分析,也常被称为“GO分析”。
图片
GO 数据库从三个大方向来说明基因及其蛋白产物的情况:
1、细胞组件,Cellular Component,首字母缩写是“CC”。细胞组件说的是这个基因翻译出来的蛋白,会组成细胞的哪个部分,或者说翻译出来的蛋白会跑到细胞的哪里去,定位在细胞的什么地方。比如这个蛋白是会定位在细胞膜上,还是呆在线粒体上;
2、分子功能,Molecular Function,缩写是“MF”。说的是这个基因的产物有什么功能,比如它是一个酶,有特定的催化功能;
3、生物过程,Biological Process,缩写是“BP”。说的是翻译出来的蛋白会参与到生命的哪个过程当中去。
用大白话来说明这三大方向,就是:你呆在什么地方?你具体做什么事?你完成什么样的任务?
通过回答这三个问题,来确认一个基因的蛋白产物的概况。
图片
GO 数据库里,对于这三大块,每一块都是有现成定义好的大量节点。而且这些节点是成树状结构的,而且每个树状结构都很庞大。
我们在这里可以看一下,其中一个树状结构的大体样子。这还是只是一个树状结构中的部分节点。全部节点是一个更加庞大的树状结构。
对 GO 数据库我们先介绍这些。
图片
接下来,要把 Peak 邻近的基因富集到 GO 数据库的某个节点条目中去。
我们刚才说了,GO 数据库,本身是一个巨大的树状结构的数据库,每个节点上都标好了相应的条目。比如生物过程的“有机物质代谢”,细胞组分的“细胞膜系统”等。
那么把 Peak 邻近的基因富集到的 GO 数据库的条目中去,就象是在圣诞树上挂礼物。圣诞树的每个树枝上都写好了相应的礼物的种类,比如:巧克力、布娃娃等。每个礼物都被挂到相应的树枝上,在把所有的礼物都挂好之后,最后看哪些树枝上挂了最多、最贵重的礼物。
那些挂了最多礼物、最贵重礼物的树枝,就是有富集的树枝。
对应到数据的树状结构,就是看哪些条目被富集了更多的基因,并且富集的显著程度最高。
图片
这就是三大块的富集图。每一个大块用一种颜色进行表示,这里展示了每一个大块各自富集程度最高的 20 个条目,每个条目下面的文字说明了这个条目的具体事项。
图中柱子的高低就是显著程度,柱子越高,则显著程度越高。
我们放大来看,生物过程(BP)排第一个的条目,是 metabolic process,代谢过程;然后是其它的条目,细胞代谢过程、有机物代谢过程等。
右边的细胞组分(CC)和分子功能(MF),也分别列出了富集显著程度最高的 20 个条目,这里我们就不一一细说了。
这些富集程度最高的条目,指出了值得科学家做进一步研究的方向。
图片
这是用气泡图来展示基因的富集情况。
这张图中,横轴是“富集因子”。“富集因子”是这个样本中有注释到这个条目的基因数,与所有注释到这个条目的基因数的比值。
纵轴是有富集的前 20 个 GO 条目。
气泡的大小是富集到这个条目的基因数。
气泡的颜色是富集到这个条目的显著性,颜色越红则显著性越高。
图片
因为 GO 本来是一个树状结构的数据库,而且有富集的条目之间有可能存在从属关系,所以用树状图来展示有富集的条目,可以更清楚地看到各个条目之间的从属关系。
在这张图中,有三棵树,对应于 GO 的三个板块。
在图中,越上面的结点,是包含内容越宽泛、越笼统的条目;越向下的结点,是内容越精准、越细致的条目。
节点的颜色,则是在这个条目中基因的富集程度,富集程度越高,则颜色越偏红。
图片
这里,还有另一种 GO 网络图来展示 GO 条目之间的更多的关系。
这里面包括:
“is a”指下级的 GO 条目完全从属于上级的 GO 条目;
“part of”指下级 GO 条目有一部分从属于上级的 GO 条目;
regulates 指下级 GO 条目可以调控上级 GO 条目;
positive regulates 指下级 GO 条目可以正调控上级 GO 条目;
negative regulates 指下级 GO 条目可以负调控上级 GO 条目;
这个图中,展示了各条目之间更加丰富的相互关系,以方便读报告的人可以从这份报告中得到更加丰富的信息。
图片
“KEGG”是 Kyoto Encyclopedia of Genes and Genomes 的首字母缩写。翻译成中文意思是:京都基因与基因组百科全书。
KEGG 是目前主要的生物学通路数据库,所以在做通路分析的时候,大家一般都会采用与 KEGG 数据库进行比对。
把 peak 附近的基因比对到 KEGG 的条目上,这与前面我们讲的比对到 GO 数据库上,方法是类似的,我们这里就不再赘述。
图片
这是展示经比对到 KEGG 数据库后,得到的显著性最高的 20 个通路的条状图。
图的横轴是 P-value 的 log10 对数值的负数,这个值越大,则富集的显著性越高。
纵轴排列了富集后显著性最高的 20 个通路。
图片
这是通路富集的气泡图,与前面基因富集的气泡图类似,横座标是“富集因子”,也就是这个样本中富集到这个条目基因个数与注释到这个通路条目上的所有基因个数的比值。富集因子越大,表示富集的程度越大。
纵轴排列的是富集程度最大的前 20 个通路。气泡的大小对应于基因的数量,气泡的颜色对应于富集的显著程度。
图片
富集的通路,也可以通过网络图的方式来展示。
图中,点的颜色代表了一个条目上富集的显著程度。
点的大小代表了这个条目中被富集的基因数量。
点与点之间的连线则表示条目之间有相关的关系。
图片
图片
免责声明:本内容来自腾讯平台创作者,不代表腾讯新闻或腾讯网的观点和立场。
举报
评论 0文明上网理性发言,请遵守《新闻评论服务协议》
请先登录后发表评论~
查看全部0条评论
首页
刷新
反馈
顶部