iMeta|香港中文大学(深圳)及福田生物医药创新研发中心与海普洛斯联合推出单细胞分析流程ScRNAPip

ScRNAPip:系统、动态的单细胞转录组数据分析工作流
图片
方  法
● 原文链接DOI: https://doi.org/10.1002/imt2.132
● 2023年8月31日,香港中文大学(深圳)叶德全、海普洛斯集团陈实富团队在 iMeta 在线发表了题为 “ScRNAPip: A systematic and dynamic pipelinefor single‐cell RNA sequencing analysis” 的文章。
● 本研究建立了一个系统化、动态和可重复的工作流程,并指导用户完成scRNA-seq分析的关键步骤,包括数据过滤、均一化、降维分析、差异分析、拟时序分析、单细胞浏览器、circos图、CNV、基因组不稳定性等。
● 第一作者:徐莉敏、张敬
● 通讯作者:叶德全(richardye@cuhk.edu.cn)、陈实富(chen@haplox.com)
● 合作作者:何依倩、杨倩倩、慕天浩、郭秋实、李映樯、童田
● 主要单位:香港中文大学(深圳)福田生物医药创新研发中心、香港中文大学(深圳)医学院、深圳市海普洛斯生物科技有限公司、香港中文大学(深圳)科比尔卡创新药物开发研究院
亮   点
图片
●  ScRNAPip是一个用于单细胞分析的工作流;
●  ScRNAPip整合了单细胞浏览器,可以提供一个交互、直观的图形可视化界面;
●  整合CNV和基因组不稳定性分析,ScRNAPip可以快速评估单个细胞内的基因组变化,并协助确定肿瘤细胞。
摘  要
单细胞测序技术(single cell sequencing)是指在单个细胞水平上,对基因组、转录组、表观组进行高通量测序分析的一项新技术。能够在单个细胞水平上揭示单个细胞的基因结构和基因表达状态,并反映细胞间的异质性。由于其高度通用性,单细胞组学技术在癌症、微生物学和神经科学等领域起着重要作用。通过单细胞RNA测序(scRNA-seq)获得的大量新信息可能会重塑我们对疾病中基因调控和细胞异质性的理解。
目前,用于scRNA-seq数据分析的工具已经开发了1,500多种,涉及30多个类别。这可能对研究人员在选择适当的数据分析工具方面构成很大挑战。在本研究中,我们旨在建立一个系统化、动态和可重复的工作流程,并指导用户完成scRNA-seq分析的关键步骤,包括数据过滤、均一化、降维分析、差异分析、拟时序分析、单细胞浏览器、circos图、CNV、基因组不稳定性等。这种可重复的分析流程还可以通过修改配置文件整合不同的数据来源,并可作为模版分析其他疾病的单细胞数据集。此外,考虑到程序长时间运行后意外崩溃的可能性,在过程中设置了断点重启。
视频解读
Bilibili:https://www.bilibili.com/video/BV1KF411r789/
Youtube:https://youtu.be/RQaYeim1OGs
中文翻译、PPT、中/英文视频解读等扩展资料下载
请访问期刊官网:http://www.imeta.science/
全文解读
方  法
ScRNAPip工作流
通过ScRNAPip从生物样本中生成单细胞转录组数据需要多个步骤(图1)。组织经过机械或酶性消化被分散成单细胞悬浮液。将合格的样品、凝胶珠和油添加到10X Genomics芯片中,生成油包水结构体系。细胞随后被裂解,凝胶珠自溶解以释放大量引物序列,这些序列与mRNA的PolyA反转录生成带有10X条形码和UMI(Unique Molecular Identifier)信息的第一链cDNA。在GEM(Gel Bead in Emulsion)破裂后,第一链cDNA通过磁珠纯化,然后进行PCR扩增以获得稳定的cDNA。扩增的cDNA随后被酶消化片段化,并选择适当长度的片段。通过端修复、A尾修复和Read2测序引物,构建包含P5和P7适配器以及双重索引的3'端转录组文库。
ScRNA-seq分析包括以下步骤:1)原始数据过滤;2)映射到参考基因组以生成表达矩阵;3)过滤双细胞、凋亡细胞和质量较差的细胞;4)归一化;5)降维和聚类;6)差异分析;7)数据可视化;8)环状图分析;9)拷贝数分析;10)发育潜力分析;11)基因组不稳定性分析;12)细胞相互作用分析;13)富集分析。
图片
图 1. ScRNAPip工作流
代码可用性
使用 Docker 容器从 GitHub 或 Docker 本地安装(macOS、Linux)。如果使用的是Windows,则需要安装Docker所需的环境。
本文使用的代码可在Docker (https://hub.docker.com/repository/docker/zhangjing12/scrnapip)或GitHub (https://github.com/OpenGene/scrnapip)中公开获取。详细的教程可以在GitHub或Docker上的readme中可以找到。
该工作流集成了很多模块功能,比如过滤、聚类、聚类标注、拟时序分析等,可用的方法也很多。如果需要调用它们,只需修改配置文件(config.ini)即可。考虑到程序长时间运行后会出现意外崩溃的情况,也可以通过修改配置文件来实现断点重启(图1)。
最低硬件要求:8核处理器和64GB RAM。
质量控制
被测序仪捕获并处理的转录本片段,被称为“reads”,以一种名为FASTQ的基于文本的格式进行存储。原始测序数据中存在一定比例的低质量数据,这会对后续的数据分析造成很大的干扰。合格的测序数据是确保后续数据分析结果可靠的前提条件,因此有必要对原始数据进行预处理和评估。10X的3'端scRNA-seq数据协议需要使用特定的分析工具。使用海普洛斯自主开发的开源软件fastp对原始数据进行预处理,获取Clean Data以供后续分析。过滤内容包括以下几个部分:1)截取read1的前28bp;2)确保read2的平均质量值高于10;3)去除read2中N碱基达到一定比例的部分(默认长度为5bp)。参数设置为“-w 8 -l 28 -n 5 -q 10 -b 28 -B 0”。配置文件中的longr = 28和ncode = 5参数可以通过调整来修改-l和-n。
基因组比对
单细胞转录组原始数据的预处理分析使用CellRanger,包括以下4个步骤:1)使用预定义的白名单进行细胞条形码的纠错;2)使用STAR将reads与参考基因组进行比对;3)UMI纠正和去重;4)获得基因表达数据。值得注意的是,尽管可以使用转录参考进行比较,但最好使用基因组参考,因为这样可以更容易地去除捕获的“非靶”序列。最终,每个样本获得基因表达矩阵,可以进一步进行过滤和分析。
细胞过滤
在凋亡细胞中,通常可以检测到大量的线粒体基因。其中大多数细胞并非我们所需的正常细胞。如果检测到的基因过多或过少,该细胞可能存在问题的概率较高。我们通过筛选来识别具有较高线粒体含量的细胞和多个细胞和多细胞:1)具有唯一特征计数超过6,000或少于200的细胞;2)具有>20%的线粒体基因表达。不同类型的组织细胞具有不同的筛选标准,这也可以通过配置文件中的nFeature_RNA = [200, 6,000]和percent_mt = [0, 20]设置进行调整。对于双重细胞,我们使用DoubletFinder进行筛选。DoubletFinder可识别由具有相同SNP图谱的细胞形成的双重细胞引起的假阴性Demuxlet分类。
均一化
归一化可以改善由不均匀测序深度引起的差异,同时保留真实的生物差异。BulkRNA通常使用“大小因子”方法(大小因子是每个基因的样本与伪样本的中值比率,所有样本的几何平均值),然而在单细胞中存在大量的零表达基因,这方法并不适用于单细胞数据。我们使用Seurat中的SCTransform方法来处理归一化问题。SCTransform使用正则化的负二项式回归来计算技术噪声模型,得到的残差是归一化值:1)获取高变异基因,默认情况下会返回2,000个高变异基因;2)在SCTransform归一化之后,使用标准值进行主成分分析(PCA)、降维分析和差异分析。除了SCTransform外,我们还提供了Harmony和MNN用于批次校正。在Tran HTN的研究中,使用ASW指数来评估性能。Seurat和Harmony是在平衡批次性能和细胞类型方面表现最佳的方法,其中Harmony在计算速度方面最快,其次是MNN。工作流支持多个样本或数据集的分析,但需要进行批次效应校正。
降维分析、聚类分析
单细胞转录组数据具有高维性,涉及数千个基因和大量的细胞。降维的目的是保留数据的关键特征,并将高复杂性数据投影到低维空间中。首先,使用PCA来汇总前N个主成分的基因。然后使用非线性降维方法,如UMAP(Uniform Manifold Approximation and Projection)或t-SNE(t-Distributed Stochastic Neighbor Embedding)。T-SNE在计算时间慢和内存消耗大方面存在限制。为了降低scRNA-seq数据的维度,研究人员开发了UMAP和scvis。与其他方法相比,UMAP可以提供最快的运行时间、最高的可重复性和最有意义的细胞簇。因此,推荐使用UMAP,另外我们也提供了t-SNE的选项。
细胞聚类的目标是根据细胞中基因表达模式的相似性(或距离)将细胞分组成大的簇。这些大组成为具有数学意义的子组。这是单细胞转录组数据挖掘的重要步骤和目标。工作流使用基于图的聚类方法:1)绘制图形;2)识别图形。绘图通常包括两个步骤,k最近邻(KNN)和共享最近邻(SNN)。通常通过Louvain算法来实现图的识别,该算法选择图中相似性最高的细胞群作为细胞子群。Louvain算法的主要优点是快速和可扩展性。此外,还提供了替代方法:Louvain、SLM、Leiden等,可以在配置文件中设置。
对于生成的簇,使用SingleR(V2.0.0)进行注释。SingleR使用不同类型细胞的已知测序数据作为参考,然后将单细胞数据映射到参考中,以获取近似的细胞类型。此外,可以通过在配置文件中使用参数singler = "yourref.rds"来调整注释的参考集。rds文件可以从singleR的官方网站获得,也可以根据singleR的教程生成。我们建议在机器注释之后,通过手动辅助注释过程,可以得到更准确的结果。
差异分析
使用Findallmarker获取每个cluster的差异表达基因。默认情况下,使用秩和检验进行分析。除此之外还可以使用Findmarker来进行指定cluster或样本之间的差异分析。提取差异表达基因时我们使用以下的选择标准:1)基因在所选的细胞群体中有超过25%的细胞表达;2)矫正后的p值(p_val_adj)<0.05;3)|logFC| > 0.5,用户可以通过修改配置文件来调整这些参数如findmarkers_testuse = "wilcox" 和 min_pct = 0.25。差异分析的结果可以用于后续的富集分析中。用户可以通过编辑配置文件中的参数来指定进行差异分析的聚类或样本。例如:difcluster.test.a = [0,1], difcluster.test.b = [5,6], difcluster.test.testuse = "wilcox"或difident.tVSn.a = ["sample1"], difident.tVSn.b = ["sample2"], difident.tVSn.testuse = "bimod"。
拟时序分析
拟时序分析,也被称为细胞轨迹分析,可以推断细胞在发育过程中的分化轨迹或某种类型细胞分化的来源。我们使用Monocle对细胞进行拟时序分析。细胞的轨迹构建过程包括以下几个步骤:1)选择决定进展的基因;2)降低数据的维数;3)对细胞进行时间排序。用户可以通过编辑配置文件中的参数来指定用于伪时间分析的cluster或样本。
数据可视化
我们使用Cerebro(V1.2.2)将单细胞数据进行可视化,适合不熟悉生物信息学分析的人进行数据挖掘。Cerebro的功能主要包括:1)展示降维结果;2)展示差异表达基因;3)导出图片和数据。此外,该软件还提供UMAP的2D和3D显示,可在以下网站(https://github.com/cerebroapp/cerebro)下载,支持Windows和Linux操作系统。如果用户有使用RStudio的经验,也可以使用R包cerebroApp来探索单细胞数据。
Circos图展示
我们使用circos图更直观地展示标记基因。circos图显示了所有cluster或细胞类型的标记基因,在不同轨道上绘制气泡图、热图和散点图。气泡图:用颜色区分不同的样品。点的大小表示在每个cluster或样本的细胞中表达标记基因的细胞的比例。为每个cluster或类型选择一个标记基因来显示。热图:颜色表示基因表达水平。散点图:纵坐标表示标记基因差异倍数的大小,红色点表示p值< 0.05的显著性。在散点图中标记每个cluster或类型所选择的标记基因。
拷贝数变异分析
CNV(拷贝数变异),又被称为CNP(拷贝数多态性),是指基因重排导致的DNA片段大小从1Kb-3Mb的变异。CopyKAT采用综合贝叶斯方法分析单细胞转录组数据,鉴定单细胞全基因组拷贝数变异,分辨率为5MB,可区分肿瘤细胞与正常细胞并进一步深入分析肿瘤的亚克隆。因此,该工具可广泛应用于各种实体肿瘤的研究。
发展潜力分析
先前的研究发现,干细胞比成熟细胞表达更多的基因。CytoTRACE根据可检测表达基因的数量(基因计数)对细胞进行评分,以评估不同单细胞亚群的分化潜力。该方法克服了对发育方向或中间状态先验知识的依赖,能够独立、稳健地识别细胞的发育潜能。该结果有助于我们识别细胞类型,构建细胞发育轨迹,并将其与Monocle2分析结果相结合,可以帮助确定轨迹的开始和结束阶段。
基因组不稳定性分析
GenomicInstability是一个软件包,用于基于单细胞RNA测序数据的基因组不稳定性分析。它使用aREA算法量化基因表达谱上连续基因集的富集程度,定量估计单细胞基因表达谱上基因表达与染色体位置(位点块)之间的相关性,并估计每个细胞的基因组不稳定性评分。
细胞间相互作用分析
细胞间的通讯是极其复杂的,一般由激素、生长因子、趋化因子、细胞因子、神经递质等配体介导,促进细胞间的信息交换。CellChat是一种从单细胞数据定量推断和分析细胞间通信网络的工具。它基于当前已知的配体-受体相互作用的先验知识来模拟细胞A和B之间的通信,并预测它们的通信状态。这种方法允许CellChat构建一个全面的细胞间通信网络。此外,CellChat为进一步的数据探索、分析和可视化提供了许多功能。
富集分析
富集是指基于先验知识(基因组注释信息)对基因进行分类的过程。通过富集分析,我们可以根据功能对差异表达的基因进行分类,并将功能与表型联系起来。在这个过程中,我们使用clusterProfiler进行功能富集分析(基于超几何分布原理)。在此过程中使用的主要功能数据库有GO、KEGG、Reactome等。
结  果
此外,我们下载并测试了公共数据库中的四个数据集:GSM3564834,GSM3564835,GSM3564836,GSM3564837
(https://www.ncbi.nlm.nih.gov/Traces/study/?acc=PRJNA515497&o=acc_s%3Aa)。根据我们的分析经验提供了一个表供用户参考和估计运行时间(基于16核和64GBRAM)(表1)。
表 1. 运行时间
图片
不同的硬件配置也可能导致分析时间的差异。其中总磁盘内存包括原始数据。
部分结果如图2、图3所示。
图片
图2. 主要分析结果展示
(A)UMAP图显示单细胞数据中的细胞聚类;(B)柱状图显示每个样本中不同cluster的比例;(C)CD2标记基因在单个细胞中的表达水平;(D)Circos图显示所有cluster或细胞类型的标记基因,气泡图、热图和散点图排列在不同的轨道上;(E)Cerebro软件界面的截图,用于展示单细胞数据分析结果的可视化工具。
图片
图3. 主要分析结果展示
(A)Monocle构建的细胞轨迹;(B)热图将beam(分支表达分析模型)分析得到的差异基因分为4类,显示与分支前分化为细胞命运1和细胞命运2相关的命运决定基因;(C)柱状图显示显著富集的GO条目;(D)气泡图为显著富集的KEGG通路,点的大小表示该通路显著富集的基因数,颜色表示p.adjust;(E)所有以cluster0为配体显著的配体-受体对。点的颜色和大小表示计算的通讯概率和p值;(F)使用cytoTRACE(使用基因计数和表达的细胞轨迹重建分析)对所有细胞进行评分。箱形图显示了不同cluster的发展潜力。
结论与展望
本文旨在建立一个可重复且高效的单细胞RNA分析流程。希望这个流程能为新手提供一个适合进入这个领域的入门点,并为建立人类细胞图谱作出贡献。单细胞RNA分析是一个快速发展的领域,开发人员不断提出新的方法。未来可能会有新的分析工具可进一步扩大单细胞RNA测序的应用。流程中使用的软件(Seurat、scanpy、R)也将不断更新,以改进我们的流程。
现在有许多基于Docker打包的生物信息学分析工作流。总的来说,这种新方法为初学者提供了一种方便且多功能的解决方案,具有各种配置选项。在使用之前,用户需要确认其适用性,并根据自己的特定需求进行调整和添加。
它的优点有:1)简化安装,无需安装各种生物信息学软件。2)适合初学者,分析操作只需点击一次即可完成。3)全面涵盖从原始测序数据到个性化分析的整个过程。4)灵活性,允许用户根据他们的研究问题自定义调整。
缺点:1)仅适用于特定物种:对人类和小鼠样本具有较强的适用性,对其他物种的适应性较弱。2)依赖先前知识,尽管初学者可以很快上手,但仍需要一定的生信背景知识。3)计算资源,此工作流程在服务器上应用,因此用户应评估自己的计算资源和存储容量,以确保能够满足工作流程的内存要求。
单细胞多组学整合多种技术,如单细胞测序、质谱分析和荧光显微镜等,以同时获得细胞的多组学信息,包括基因组、转录组、蛋白组和代谢组。它帮助我们更深入地了解个体细胞的功能和特征,揭示细胞的异质性,并发现新的细胞亚型和细胞状态转变。然而,单细胞多组学研究也面临着样本制备、复杂的实验步骤和多组学数据的解释等挑战。总之,单细胞多组学为我们研究细胞提供了一种新的方式,并有望在疾病研究和个体化医学中发挥重要作用。
近年来,深度学习等人工智能技术在图像识别、自然语言处理等领域取得了显著的成就。人工智能技术对生物信息的多个领域产生了重大影响。随着人工智能的快速发展,基于人工智能的单细胞RNA测序分析可能会取得重大突破。然而,将深度学习应用于单细胞测序数据分析面临着诸多挑战,包括数据稀疏性、维度灾难和解释困难。为了实现这一目标,我们需要创建更好的分析工具和方法,并继续共同努力,以实现更强大和可重复的解决方案。
数据可用性声明
该软件包已在GitHub (https://github.com/OpenGene/scrnapip) 发布。用于数据处理、分析可视化的脚本上传到了GitHub(https://github.com/OpenGene/scrnapip/tree/main/docker/data)。补充资料(图表、脚本、图形摘要、幻灯片、视频、中文翻译版本)可在在线DOI或iMeta Science(http://www.imeta.science/)上找到。
引文格式
Xu, Limin, Jing Zhang, Yiqian He, Qianqian Yang, Tianhao Mu, Qiushi Guo, Yingqiang Li, Tian Tong, Shifu Chen, and Richard D.Ye. 2023. “ScRNAPip: A Systematic and Dynamic Pipeline for Single‐Cell RNA Sequencing Analysis.”
iMeta e132. https://doi.org/10.1002/imt2.132
作者简介
图片
徐莉敏(第一作者)
●  香港中文大学(深圳)医学院科研经理,香港中文大学(深圳)福田生物医药创新研发中心运营总监,博士毕业于英国华威大学。
●  研究方向为植物病理学、微生物种群竞争、酶的改造与应用、基因与蛋白质组学等。
图片
张敬(第一作者)
●  深圳市海普洛斯生物科技有限公司 生信科研部经理。
●  目前研究方向为单细胞组、基因组、转录组、表观组学等。
图片
叶德全(通讯作者)
●  香港中文大学(深圳)校长讲座教授、医学院副院长(科研与创新)。
●  1982年本科毕业于上海第二医学院,并于1988年获美国圣路易斯华盛顿大学博士学位。自1989年起先后在Scripps研究所及伊利诺伊大学医学院担任助理教授、副教授、教授,其科研项目获美国国立健康研究院连续资助25年。主要研究方向包括G蛋白偶联受体的信号转导及在固有免疫细胞中的作用,炎症机制和病理模型及相关药物靶标的发现。先后与强生、诺华、GSK等公司开展研发合作,作为第一发明人获批美国专利2项、中国专利1项,共同发明人专利2项。发表SCI学术论文超过220篇,被引1万多次。于2010年回国担任上海交通大学讲席教授、药学院院长;2015年1月至2019年1月任澳门大学讲座教授。学术兼职包括FASEB Journal副主编,Pharmacological Reviews 副主编,Physiological Reviews副主编, Molecular Pharmacology及British Journal of Pharmacology 编委。
图片
陈实富(通讯作者)
● 中科院博士,正高级工程师,海普洛斯集团创始人兼首席技术官,中科院深圳先进技术研究院客座研究员。
● 2019年深圳市青年科技奖获得者,获评2022广东省创新达人,以项目负责人获2022深圳科技进步奖。开源项目组OpenGene的发起人,多款热门生物信息学软件的作者。发表国际期刊和会议论文60余篇,其中一作兼通讯最高单篇引用超过8000次。申请30余项发明专利和40多项软件著作权,是中国抗癌协会、中国临床肿瘤学会以及美国肿瘤学会会员,中国抗癌协会肿瘤标志专委会青年委员,肿瘤测序及大数据分析专委会委员。