CGAS(叶绿体基因组分析套件):面向比较叶绿体基因组学的自动化 Python 流程
iMetaOmics主页:http://www.imeta.science/imetaomics/
方法论文
●期刊:iMetaOmics
● 英文题目:CGAS (Chloroplast Genome Analysis Suite): An Automated Python Pipeline for Comprehensive Comparative Chloroplast Genomics
● 中文题目:CGAS(叶绿体基因组分析套件):面向比较叶绿体基因组学的自动化 Python 流程
● DOI: https://doi.org/10.1002/imo2.70093
● 2026年3月31日,天津中医药大学田晓轩组在iMetaOmics发表了题为“CGAS (Chloroplast Genome Analysis Suite): An Automated Python Pipeline for Comprehensive Comparative Chloroplast Genomics”的文章。
● 本研究开发了一个集成14个模块的自动化Python流程CGAS,涵盖从原始测序reads到出版级输出全流程的自动化叶绿体基因组分析。该工具严格保证生物学正确性,支持大规模批处理,显著提升比较叶绿体基因组学研究的效率与可重复性。
● 第一作者:Abdullah
● 通讯作者:田晓轩(tian_xiaoxuan@tjutcm.edu.cn)、Abdullah(abd.ullah@bs.qau.edu.pk)
● 合作作者:闫如山
● 主要单位:天津中医药大学现代中药创制全国重点实验室、现代中医药海河实验室
● 开发了CGAS,一个包含14个模块的端到端Python流程,覆盖从原始FASTQ reads组装、注释到比较基因组学与系统发育分析的全流程;
● 通过生物学正确处理(剪接基因rps12、IR重复基因计数、伪基因识别)避免注释错误,确保比较结果真实反映生物学变异;
● 基准测试显示,处理10个叶绿体基因组(~150 kb)在10分钟内完成,50个基因组约50分钟,自动化批量处理极大节省手动操作时间;
● 提供氨基酸组成、SNP剖析、内含子统计、SSR功能定位、核苷酸多样性(π)等独有分析,并自动生成出版级Word表格与R脚本图表;
● 开源免费(MIT许可),支持NCBI提交文件生成,适用于大规模植物进化、DNA条形码与系统发育研究。
叶绿体基因组是植物进化、DNA条形码、种群遗传学、系统发育和地理分布研究的核心分子标记。尽管存在众多独立工具,但叶绿体基因组学研究仍依赖碎片化工作流,存在手动转换、批处理困难与生物学不一致等问题。CGAS是一个基于Python的统一自动化流程,集成了14个模块,分为三个阶段:阶段1(模块1–4)完成原始reads质控、GetOrganelle组装、PGA注释、基因标准化与NCBI格式转换;阶段2(模块5–13)实现批处理比较分析,包括基因含量比较、基因组结构(LSC/SSC/IR)、密码子使用(RSCU)、氨基酸组成、SNP剖析、内含子结构、SSR检测与核苷酸多样性(π)评估,并集成R脚本生成出版级可视化;阶段3(模块14)通过特征级提取、MAFFT/MACSE比对与IQ-TREE构建系统发育矩阵与最大似然树。CGAS接受FASTQ、GenBank或FASTA输入,输出结构化Excel、Word、CSV、FASTA与Newick文件,强调生物学正确性与可重复性,是首个实现叶绿体基因组学全流程端到端的集成工具,可在https://github.com/abdullah30/Chloroplast-Genome-Analysis-Suite-CGAS免费获取。
Bilibili:https://www.bilibili.com/video/BV1wK9JBbEnm/
Youtube:https://youtu.be/64FH7cnqGbk
中文翻译、PPT、中/英文视频解读等扩展资料下载
请访问期刊官网:http://www.imeta.science/imetaomics/
引 言
叶绿体基因组为四分体结构(LSC、SSC、IRa/IRb),大小适中、单亲遗传、基因含量与组织稳定,已成为植物进化、DNA条形码、种群遗传学、系统发育与地理分布研究的核心工具。高通量测序使叶绿体基因组测序常规化,但分析瓶颈转向大规模比较。现有工具虽能完成单一任务(如fastp质控、GetOrganelle组装、PGA注释、MAFFT比对、IQ-TREE建树),但仍需手动文件转换、后处理与脚本拼接,导致可重复性差、批处理困难且易产生生物学错误。 集成平台如CPStools与CPGView虽提供下游分析与可视化,但缺乏原始reads处理、组装、覆盖度评估、注释验证与NCBI提交准备,且缺少氨基酸组成、SNP剖析、内含子统计与多物种基因含量详细比较。CGAS正是为解决这些痛点而设计:一个端到端、自动化、批处理导向的Python后端流程,整合成熟工具与新开发脚本,重点保障生物学正确性、可扩展性与出版级输出,支持FASTQ、GenBank或FASTA输入,直接产出可用于发表与NCBI提交的结果。
结 果
CGAS概述
CGAS v1.0.1包含14个集成模块,分为三个阶段(图1):准备阶段(模块1–4)、比较基因组学阶段(模块5–13)与系统发育阶段(模块14)。所有模块采用目录批处理,确保方法一致性、可扩展性与可重复性。
准备工作流(模块1–4)
模块1集成fastp质控、GetOrganelle组装与BWA/SAMtools覆盖度分析,自动判断组装完整性(单环状或SSC翻转双环状为完整,否则标记不完整并排除)。模块2使用PGA进行参考引导批注释。模块3标准化基因名称、识别内含子缺失/存在,解决不同来源注释不一致。模块4验证注释并转换为NCBI-compliant FASTA与TBL文件,支持大规模提交。
比较基因组学分析(模块5–13)
模块5–7总结基因含量(区分功能基因/伪基因,正确处理IR重复)、生成出版级Word表格,并表征基因组结构(LSC/SSC/IR区域、各类功能基因GC含量)。模块8–13分别进行RSCU密码子使用、氨基酸组成、SNP(Ts/Tv)剖析、内含子结构、SSR( motif、位置、功能上下文)与核苷酸多样性(π)分析,所有统计由Python完成,结构化CSV/TXT数据自动驱动R脚本生成出版级图表(R脚本同时提供手动自定义)。
系统发育分析(模块14)
模块14提取蛋白编码基因、内含子与IGS,分别用MAFFT(默认)或MACSE(密码子感知)比对后拼接成矩阵,IQ-TREE自动选模、1000次UFBoot与SH-aLRT支持构建最大似然树,支持用户指定外群。
输出结构与性能 每个模块输出独立目录,包含Excel、Word、CSV、TXT、FASTA与Newick文件,便于交叉验证。基准测试显示,模块3–13处理10个基因组<10分钟,50个基因组约50分钟;模块1与2自动化外部工具执行,模块14简化矩阵构建,大幅节省手动时间。
图1. 图1. CGAS工作流程
流程包含14个模块,分三个阶段。阶段1(准备模块1–4):原始FASTQ经质控、组装、注释、标准化与格式转换生成标准化GenBank文件;阶段2(主分析模块5–13):执行基因含量、结构、密码子、氨基酸、SNP、内含子、SSR与核苷酸多样性分析(可一键运行cgAS --modules 5,6,7,8,9,10,11,12,13);阶段3(系统发育模块14):单独运行,构建特征级矩阵并推断系统发育树。流程严格处理剪接基因、IR重复与注释不一致,确保生物学准确性,所有输出均为出版级格式。
结 论
CGAS将14个核心模块集成于单一自动化框架,覆盖叶绿体基因组从原始数据到系统发育的全流程,显著简化复杂工作流,同时保持生物学准确性与可重复性。随着叶绿体基因组数据集规模与分类群广度持续扩大,CGAS这类统一分析框架将日益重要,为进化、分类与应用植物基因组学研究提供方法学严谨性。CGAS开源、可扩展且持续维护,特别适用于大规模比较研究、元分析与需要高透明度与可重复性的项目。
方 法
实现与依赖
CGAS为模块化命令行Python流程,核心使用Biopython、NumPy、pandas、OpenPyXL与python-docx。外部工具包括fastp、GetOrganelle、BWA、SAMtools、PGA、MAFFT、MACSE(可选)、IQ-TREE与R(≥4.0)。AI工具(ChatGPT v5、Claude Sonnet v4.5、DeepSeek v3.2)辅助脚本开发与语言润色,所有输出经作者人工审查验证。
输入要求与生物学正确性
模块1接受FASTQ,模块2–14接受GenBank/FASTA。流程自动处理批处理目录,识别剪接基因(rps12)、IR重复与伪基因,避免计数膨胀与错误。
项目名称:Chloroplast Genome Analysis Suite (CGAS)
项目首页:https://github.com/abdullah30/Chloroplast-Genome-Analysis-Suite-CGAS
操作系统:平台无关(Linux/macOS/Windows WSL2)
编程语言:Python ≥ 3.9
关键依赖:Biopython ≥ 1.79、pandas ≥ 2.0等
外部工具:fastp ≥ 0.23.0、GetOrganelle ≥ 1.7.0等 许可:MIT
代码和数据可用性:
CGAS以MIT许可证发布,完整源代码可在https://github.com/abdullah30/Chloroplast-Genome-Analysis-Suite-CGAS免费获取。仓库提供全面文档、安装指南、模块使用说明与示例工作流。输入与输出示例文件已在Figshare提供(https://doi.org/10.6084/m9.figshare.31267456)。CGAS教程见Bilibili(https://www.bilibili.com/video/BV18LcazxEir/)与YouTube(https://www.youtube.com/watch?v=2Q4B7uCGkQE)。补充材料(方法、图形摘要、幻灯片、视频、中文翻译版与更新材料)可在在线DOI或iMetaOmics Science(http://www.imeta.science/imetaomics)获取。
引文格式:
Abdullah, Rushan Yan, Xiaoxuan Tian. 2026. “CGAS (Chloroplast Genome Analysis Suite): An Automated Python Pipeline for Comprehensive Comparative Chloroplast Genomics” iMetaOmics 3: e70093. https://doi.org/10.1002/imo2.70093.
Abdullah(第一/通讯作者)
● 天津中医药大学在站博士后。
● 研究方向为比较与进化植物基因组学,重点关注叶绿体基因组的系统发育学、群体遗传学及比较基因组学研究。以第一作者/通讯作者在BMC plant biology、BMC genomics、Journal of Systematics and Evolution、Genomics、Ecology and Evolution等期刊发表SCI论文45篇。
田晓轩(通讯作者)
● 天津中医药大学国有资产与实验室管理处副处长,中药学博(硕)士生导师。
● 研究方向为药用资源的调查、鉴定,分子标记开发。主持国家自然科学基金2项,省部级课题2项;作为主要参与人完成国家级课题4项,省部级课题4项。以第一或通讯作者,在APSB,JAFC等期刊发表SCI文章60篇,作为第一发明人授权专利4项。参编论著2项。
(▼ 点击跳转)
高引文章 ▸▸▸▸
iMeta | 引用20000+,海普洛斯陈实富发布新版fastp,更快更好地处理FASTQ数据
高引文章 ▸▸▸▸
iMeta | 兰大张东组:使用PhyloSuite进行分子系统发育及系统发育树的统计分析
高引文章▸▸▸▸
iMeta | 唐海宝/张兴坦-用于比较基因组学分析的多功能分析套件JCVI
1卷1期
1卷2期
1卷3期
1卷4期
2卷1期
2卷2期
2卷3期
2卷4期
3卷1期
3卷2期
3卷3期
3卷4期
3卷5期
3卷6期
4卷1期
4卷2期
4卷3期
4卷4期
4卷5期
4卷6期
5卷1期
1卷1期
1卷2期
2卷1期
2卷2期
2卷3期
2卷4期
3卷1期
1卷1期
1卷2期
“iMeta” 是由威立、宏科学和本领域数千名华人科学家合作出版的开放获取期刊,主编由中科院微生物所刘双江研究员和荷兰格罗宁根大学傅静远教授担任。目的是发表所有领域高影响力的研究、方法和综述,重点关注微生物组、生物信息、大数据和多组学等前沿交叉学科。目标是发表前10%(IF > 20)的高影响力论文。期刊特色包括中英双语图文、双语视频、可重复分析、图片打磨、60万用户的社交媒体宣传等。2022年2月正式创刊!相继被Google Scholar、PubMed、SCIE、ESI、DOAJ、Scopus等数据库收录!2025年6月影响因子33.2,中科院分区生物学1区Top,位列全球SCI期刊前千分之三(65/22249),微生物学科2/163,仅低于Nature Reviews,学科研究类期刊全球第一,中国大陆5/585!
“iMetaOmics” 是“iMeta” 子刊,主编由中国科学院北京生命科学研究院赵方庆研究员和香港中文大学于君教授担任。iMetaOmics相继被PubMed、ESCI、DOAJ、Crossref和EZB等数据库收录,目标是成为影响因子大于10的高水平综合期刊,欢迎投稿!
"iMetaMed" 是“iMeta” 子刊,专注于医学、健康和生物技术领域,目标是成为影响因子大于15的医学综合类期刊,欢迎投稿!
iMeta主页:
http://www.imeta.science
姊妹刊iMetaOmics主页:
http://www.imeta.science/imetaomics/
出版社iMeta主页:
https://onlinelibrary.wiley.com/journal/2770596x
出版社iMetaOmics主页:
https://onlinelibrary.wiley.com/journal/29969514
出版社iMetaMed主页:
https://onlinelibrary.wiley.com/journal/3066988x
iMeta投稿:
https://wiley.atyponrex.com/journal/IMT2
iMetaOmics投稿:
https://wiley.atyponrex.com/journal/IMO2
iMetaMed投稿:
https://wiley.atyponrex.com/submission/dashboard?siteName=IMM3
邮箱:
office@imeta.science