作者:田小幺
编辑:十九
转载请联系本公众号获得授权,并标明来源
加州大学洛杉矶分校的研究团队提出了一种名为 spIsoNet 的自监督深度学习方法,将其应用于单粒子冷冻电镜时,能够显著提高生物大分子的三维重建质量,增强对齐精度和角度各向同性。
在科研领域,常常会有某些技术因其突破性进展而成为时代的焦点,荣获 2017 年诺贝尔化学奖的冷冻电镜 (Cryo-EM) 正是这样的技术之一。比如,依托冷冻电镜技术,施一公团队曾于 2015 年首次捕获剪接体高分辨率结构,这被誉为近 30 年中国在基础生命科学领域对世界科学作出的最大贡献,也引发了大家对于冷冻电镜的广泛关注。
作为结构生物学领域的重要工具,冷冻电镜能够将样品快速冷却至低温,防止样品中水分子结晶,从而保留了样品的近生理状态。样品冷冻后,科研人员可以使用一系列冷冻电镜技术以各种分辨率(包括近原子级分辨率)对样品进行 3D 可视化,从而更深入、更全面地了解样品。
然而,尽管冷冻电镜技术已经越发成熟,但样本制备过程中的取向优势问题一直是一个难题。一般而言,3D 重构过程需要来自各个方向的蛋白质投影,以覆盖整个空间。然而,吸附在气液界面 (AWI) 上的蛋白质常常表现出取向优势,导致投影数据集不完整,进而造成蛋白质密度发生不同程度的畸变,导致重构失真。
近日,加州大学洛杉矶分校的研究团队提出了一种名为单粒子 IsoNet (spIsoNet) 的自监督深度学习方法。这种方法提供了一种用以恢复样本各向同性的新途径。当 spIsoNet 应用于单粒子冷冻电镜时,它能够显著提高生物大分子重建的质量,增强对齐精度和角度各向同性,为结构生物学领域带来了新突破。
该研究以「Overcoming the preferred-orientation problem in cryo-EM with self-supervised deep learning」为题,已发表在国际学术期刊 Nature Methods。
研究亮点:
* 该研究开发了一种基于自监督深度学习的端到端方法 spIsoNet,可用于提高冷冻电镜的图像质量
* spIsoNet 可解决由偏好取向问题引起的三维重建问题
* spIsoNet 在 3D 重建过程中提高了角度各向同性和粒子对齐精度
spIsoNet 数据集地址:
https://go.hyper.ai/P7XQu
开源项目「awesome-ai4s」汇集了百余篇 AI4S 论文解读,并提供海量数据集与工具:
https://github.com/hyperai/awesome-ai4s
数据集:精选多个数据集,各自具有不同的特点和应用场景
在该研究中,研究人员使用了多个数据集来测试 spIsoNet 的性能,每个数据集都有其独特的特点和应用场景:
* β-半乳糖苷酶数据集:它包含两个具有特定取向的子集,分别为 1,513 个侧视粒子和 950 个顶视粒子,这些子集被用来验证 spIsoNet 是否能够提升受偏好取向影响的图像质量 (map quality)。
* HA 三聚体倾斜数据集 (EMPIAR-10097):它通过网格倾斜策略获得,提供了一个倾斜视角方向,可被用于评估 spIsoNet 处理倾斜样本的能力。
* 非倾斜 HA 三聚体数据集 (EMPIAR-10096):它在无网格倾斜条件下收集,通过导入 130,000 个粒子并执行错位校正,最终得到 3.45Å 分辨率的图像,可被用于比较倾斜和非倾斜样本处理效果的差异。
* 非对称核糖体数据集 (EMPIAR-10406):它包含了与 amikacin 复合的 A. baumannii 病原体的 70S 核糖体,可被用来评估 spIsoNet 在处理复杂生物分子结构时的性能。
* HIV VLP 断层扫描数据集 (EMPIAR-10164):它包含未成熟的 HIV-1 dMACANC 病毒样颗粒 (VLPs),分辨率为 3.6Å。在本研究中,它提供了对病毒颗粒结构的深入观察。
spIsoNet:基于 U-net 深度学习模型,由两大模块共同组成
spIsoNet 使用的神经网络基于 U-net 网络架构,这是一种在生物医学图像恢复和分割中得到了广泛认可的深度学习模型。如下图 b 所示,通过堆叠卷积块,基于编码器-解码器架构来构建 U-net。
spIsoNet 使用的 U-net 神经网络架构
在 U-net 模型的基础之上,spIsoNet 主要由两个模块组成:
各向异性校正模块 (The Anisotropy Correction module)
研究人员设计了一款各向异性校正模块,目的是为了提高冷冻电镜图像的清晰度。如下图 c 所示,该模块的运作将两个半图 (halfmap)、一个三维傅里叶壳层相关 (3DFSC) 体积以及一个溶剂掩模作为输入数据,通过集成 3DFSC 算法,最小化 4 个不同类型的损失函数加权和,包括一致性损失 (Consistency loss)、等变性损失 (Equivariance loss)、噪声到噪声一致性损失 (Noise2Noise consistency loss) 和噪声到噪声等变性损失 (Noise2Noise equivariance loss),进而提高冷冻电镜图像的质量。
各向异性校正算法示意图
各向异性校正驱动的错位校正模块 (The Anisotropy Correction-powered Misalignment Correction module)
如下图 e 所示,该模块集成了包括图像过滤 (map filtering)、各向异性校正 (Anisotropy Correction) 和 RELION 自动精细化 (RELION auto-refine) 三个主要步骤在内的工作流程,其中各向异性校正是整个流程的核心环节,旨在通过各向异性校正来提升冷冻电镜图像的质量。
* 各向异性校正是指通过特定的算法等修正物体在不同方向上的物理化学性质差异,以实现各向同性的效果。
* 错位校正技术主要用于纠正由于成像过程中的几何畸变导致的图像错位问题。
错位校正算法示意图
当完成各向异性校正后,研究人员得到了更精确的粒子取向参数以及两个由 RELION 重建的半图。这些半图在每次三维精细化迭代后,会经过包括白化 (whitening) 和 FSC 加权 (FSC weighting) 在内的后处理滤波器处理,以进一步提升图像质量。然后,spIsoNet 各向异性校正模块会对这些过滤后的半图进行处理,处理后的校正半图会经过低通滤波 (Lowpass),以达到与其分辨率相匹配的标准。这两个经过过滤和校正的半图,将被用作后续取向估计的参考依据。
研究结果:spIsoNet 显著提高冷冻电镜图像质量
各向异性校正成效显著
研究人员发现,spIsoNet 的各向异性校正模块可以有效地恢复模拟数据中缺失的信息。因此,该研究首先在包含 β-半乳糖苷酶的 RELION 教程数据集上测试了 spIsoNet。
如下图 j-m 所示,从二维类平均值中选择侧面视图粒子和顶面视图粒子,研究人员整理了两个具有偏好取向的粒子子集,并执行了标准的 RELION 三维重建。测试结果表明,单独的各向异性校正模块就能有效地减少由顶面视图主导或侧面视图主导取向引起的三维重建失真 (artifacts)。
应用于 β-半乳糖苷酶的各向异性校正图像
* 其中,j-l 是指从不同的角度重建的 2D 分类图,k-m 是指从不同的角度重建的 3D 分类图
各向异性校正和错位校正技术均显著提高了冷冻电镜图像质量
先前的研究显示,HA 三聚体倾斜数据集的冷冻电镜图像质量并不理想。为了测试 spIsoNet 的效果,该研究首先对半图 (Halfmap) 进行了各向异性校正,结果表明校正后的图像质量得到显著提升,局部分辨率提高,噪声减少。如下图 a-b 所示,在校正后的图像中,原先在原始图像中难以辨认的侧链密度变得清晰可见。
不同方法重建的 HA 三聚体冷冻电镜图像
* 从左至右依次均是标准 RELION 细化、各向异性校正和各向异性校正驱动的错位校正。
进一步地,如下图 c-f 所示,错位校正后的图像提升了图像到模型的傅里叶壳层相关性,三维傅里叶壳层相关性 (3DFSC) 接近球形 (0.991),与原始图像相比,纠偏之后还显示出更大的各向同性傅里叶壳层占据区域 (FSO)。
错位校正后的 HA 三聚体冷冻电镜图像
* 其中,c-e 分别为用于 RELION 细化和 spIsoNet 错位校正的 3DFSC 切片,d-f 分别为由 RELION 细化和 spIsoNet 错位校正结果计算出的 FSO 和 Bingham 检验的 P 值
错位校正成功识别并纠正了许多被错误分配的方向
针对存在严重偏好取向问题的蛋白质数据集——非倾斜 HA 三聚体数据集 (EMPIAR-10096),该研究利用 spIsoNet 的各向异性校正驱动的错位校正模块来处理粒子数据集,并以倾斜数据集中重建的 HA 三聚体图像作为参考模型。
经过错位校正,如下图 b-f 所示,研究人员获得了一个具有正确形状的图像,并在各向同性方面取得了显著改善。如下图 h 所示,half-map FSC (3.5Å) 和 model-to-map FSC (3.6Å) 所确定的图像分辨率一致。
spIsoNet 对非倾斜 HA 三聚体数据集的应用
*a-代表性冷冻电镜显微照片,b-不同方法重建的 HA 三聚体低温电镜图,c-用于标准 RELION 细化的 3DFSC 的切片,d-根据标准 RELION 细化结果计算的 FSO 和Bingham 检验的 P 值,e-spIsoNet 错位校正的 3DFSC 的切片,f-根据 spIsoNet 错位校正结果计算的 FSO 和Bingham 检验的 P 值,g-从冷冻电镜图中选择的氨基酸残基和聚糖的代表性密度,h-校正后的 HA 三聚体 FSC 曲线,i,j-不同方向分布结果和对应的 cryoEF 分数
spIsoNet 在改善非对称粒子以及含有核酸分子的粒子对齐方面表现出色
如下图 a-d 所示,经过各向异性校正后,图像质量得到了显著提升,表现出更连续的密度分布、更高的局部分辨率以及更少的噪声干扰。研究发现,当以 70S 或 80S 核糖体的局部断层平均 (subtomogram averaging) 作为参考,并保持 15Å 的初始分辨率进行对齐,能够一致性地获得无模型偏差的高质量图像,并有效减轻了各向异性的影响。
spIsoNet 在核糖体数据集上的应用
* a,b-不同重建方法重建的核糖体图,c,d-具有拟合原子模型的代表性密度区域(黄色)
spIsoNet 在原位结构生物学中具有应用潜力
为了对 spIsoNet 在局部断层平均 (subtomogram averaging) 中的应用进行评估,该研究以 HIV-1 VLP 断层扫描数据集 (EMPIAR-10164) 为例。
如下图 a 所示,在 RELION4 的标准流程中,该研究使用 5 组不同倾斜角度的子集,得到了一个 3.7Å 分辨率的结构。然后,通过实施错位校正,研究人员就可获得一个如下图 e 所示的各向同性的 3.6Å 分辨率结构。
如下图 b-h 所示,结构分析进一步揭示了更清晰的侧链密度,并在 FSO 曲线中展现了更高的 3DFSC 球形度,有助于提高粒子取向估计的准确性。
spIsoNet 在局部断层平均图中的应用
* a-根据标准 RELION 重建的 HIV-1 局部分辨率图,b-用于标准 RELION 细化的 3DFSC 的切片,c-根据标准 RELION 细化结果计算的 FSO 和Bingham 检验的 P 值,d-从冷冻电镜图中选择的氨基酸残基和聚糖的代表性密度,e-根据 spIsoNet 各向异性校正技术重建的 HIV-1 局部分辨率图,f-spIsoNet 各向异性校正的 3DFSC 的切片,g-根据 spIsoNet 各向异性校正结果计算的 FSO 和 Bingham 检验的 P 值,h-从冷冻电镜图中选择的氨基酸残基和聚糖的代表性密度
AI+冷冻电镜,「强强联合」的技术典范
近两年,科学界有一个备受争议的话题是:「AlphaFold 是否终结了结构生物学?」答案当然是否定的。
一方面,AlphaFold 等结构预测模型的训练数据正是来源于 X 射线、冷冻电镜等传统结构解析方法。另一方面,冷冻电镜技术在解析蛋白质动态方面表现出色,这是 AlphaFold 目前无法实现的。那么,以 AlphaFold 为代表的 AI 技术能否辅助以冷冻电镜为代表的传统方法呢?这可以说是一种必然。
比如,早在 2022 年,北京大学毛有东教授团队就曾借助 AI+冷冻电镜,成功捕获了诱导蛋白酶体从底物降解中间状态向底物抑制中间状态的瞬时转化。这是全球首次将人工智能四维重建技术应用于提升时间分辨冷冻电镜的分析精度,团队针对重大疾病相关靶蛋白复合体,实现了原子水平的功能动力学观测,相关成果以「USP14-regulated allostery of the human proteasome by time-resolved cryo-EM」为题发表于 Nature。
前不久,字节跳动 ByteDance Research 团队的研究人员提出了一种名为 CryoSTAR 的新方法。这是首个在冷冻电镜实验数据上应用蛋白质原子结构模态先验的方法,它利用原子模型信息作为结构正则化,阐明生物大分子的构象异质性,能够输出粗粒度模型和密度图,展示分子在不同水平上的构象变化,显著提升了冷冻电镜在动态构象解析中的应用潜力。相关成果以 「CryoSTAR: Leveraging Structural Prior and Constraints for Cryo-EM Heterogeneous Reconstruction」为题发表于 Nature Methods。
毫无疑问,AI 与冷冻电镜的结合正在开启结构生物学的新篇章,也彰显了 AI 技术在辅助传统结构生物学方法上的巨大潜力。