遗传密码是生命的核心基础。几乎所有生物都使用相同的三联体DNA碱基组合,来编码相同的20种氨基酸。迄今为止,科学家尚未发现任何重大例外,因此普遍认为这套遗传密码可追溯至地球上所有生命的最后共同祖先。不过,围绕遗传密码最初如何演化,学界始终存在诸多有据可查的推测。
大多数假说认为,早期生命形式拥有不完整的遗传密码,使用的氨基酸种类也少于20种。为了验证这些假说,哥伦比亚大学与哈佛大学的联合研究团队决定尝试去除当前20种氨基酸中的一种。作为首次尝试,他们对核糖体的部分结构进行改造,使其在不依赖原本必不可少的氨基酸——异亮氨酸的情况下依然能够正常运作。
改变遗传密码
首先,为什么要这么做?该领域以往的大多数研究聚焦于以有益方式改造遗传密码,例如引入超过20种氨基酸以实现更丰富的化学反应。
本研究的出发点在于:在地球生命的最后共同祖先出现之前,生物体曾尝试过多种遗传密码形式,并可能同时借助蛋白质和催化RNA来维持新陈代谢。尽管科学界已对催化RNA开展了大量研究,但对于简化遗传密码所能实现的化学可能性,我们的了解仍然十分有限。研究人员还指出,基于AI的工具已发展成熟,使得重新设计只含较少氨基酸的蛋白质比几年前更具可行性。
异亮氨酸是三种高度相似氨基酸之一,另外两种是亮氨酸和缬氨酸。在与其他氨基酸的区别结构中,这三种氨基酸都具有完全由碳和氢组成的支链结构,因此都呈疏水性,通常位于蛋白质内部,远离细胞内的水性环境。因此,仅从理论推断来看,这三者中的某一种似乎是去除的理想候选对象。
研究人员还以实验证据支持了这一推断。他们对大肠杆菌基因组进行了分析,检查其他物种的同源蛋白质中哪些氨基酸会被替换。结果显示,异亮氨酸是最频繁被其他氨基酸替代的种类。于是,研究团队决定开始探索:我们是否真的需要异亮氨酸?
对大肠杆菌约4500个基因逐一编辑将是一项极其浩大的工程,且如此大规模的同时改动几乎肯定会导致细菌死亡,因此研究人员从更小规模的测试入手。他们首先选取36个必要基因,将其中所有异亮氨酸替换为结构相似的缬氨酸,再将修改后的基因重新导入基因组。结果显示,其中22个基因的替换导致细胞死亡,但有17个基因的细胞在没有异亮氨酸的情况下依然正常存活,其中一个基因在氨基酸链上的45个不同位置都进行了替换。
值得注意的是,即便细胞能耐受这种改变,其生长速度往往也比未经编辑的细胞有所下降。这一现象将在后续研究中反复出现。
重新设计核糖体
为了给研究确立一个聚焦方向,研究人员决定着手打造一个不含异亮氨酸的核糖体。核糖体是由蛋白质和RNA组成的大型复合体,负责将信使RNA翻译成蛋白质——可以将其理解为启动细胞这台"生命机器"所必需的硬件组件之一。核糖体中许多蛋白质具有关键的酶活性,而将整个复合体组装起来,则需要这些蛋白质之间以及蛋白质与RNA之间的精确相互作用。因此,核糖体为检验去除某种氨基酸是否能被细胞耐受提供了极为严格的测试平台。
作为初步测试,研究团队对50个为核糖体提供蛋白质的基因逐一进行异亮氨酸到缬氨酸的替换。其中18个基因没有出现明显问题,19个基因导致生长速度减慢,其余13个基因的改动则是致命的。随后,团队聚焦于适应性下降的32个基因,借助深度学习蛋白质设计软件为其提出不含异亮氨酸的替代序列。
经过四款不同软件的迭代测试,25个蛋白质成功获得了消除适应性问题的替代序列。
对于剩余5个问题蛋白质,研究人员采取了另一种策略:强制改变异亮氨酸位置,再让软件在三维结构中对物理上邻近的氨基酸设计相应改动,以补偿氨基酸替换对蛋白质结构造成的影响。这一方法使其中4个问题蛋白质成功完成了重新设计。
尽管上述成果令人印象深刻,但单独测试各蛋白质并不能真正反映这些重设计蛋白质能否共同组装出功能等效的核糖体。为此,研究人员决定在核糖体小亚基的所有蛋白质中同时去除异亮氨酸。这一选择在操作上具有明显优势:小亚基的21个蛋白质基因全部集中在基因组一段约1万个碱基的区域内,研究人员可以一次性完成所有替换。
从小处着手
利用前期工作中获得的重设计蛋白质,研究人员开始在这段1万碱基区域内逐步替换更大范围的基因。从一端出发,他们顺利完成了10个基因的替换。当替换数量增至17个时,细胞开始出现生长减缓。而当同时替换18个基因时,细胞完全死亡。
于是,他们改从另一端逐步推进,发现改动均可耐受,直到遇到与从另一端推进时同样出现问题的基因为止。这个名为rplW的基因似乎是关键障碍所在。在保留rplW不动的情况下替换其余20个基因,细胞不仅存活,生长速度也达到未经修改的大肠杆菌的约70%。
研究人员随后仔细审查了软件对rplW所建议的改动,发现软件通过删除异亮氨酸附近的若干短氨基酸片段来弥补变化。尽管这样做能让蛋白质保持功能,但改动幅度过大,导致其无法与其他所有变化协同工作。
针对这一难题,研究团队采用了穷举法:让软件对rplW中4个异亮氨酸位置分别提出多种替代氨基酸选项,并测试所有可能的组合(共16种设计方案)。其中一种方案成功完成了不含异亮氨酸的小亚基拼装,所得菌株的生长速度约为未经编辑细胞的60%。这些细胞经过400代培养后,通常积累了20至30个突变,但没有任何突变将异亮氨酸重新引入任何核糖体蛋白质。
值得注意的是,若单独将这个版本的rplW导回基因组,细胞会死亡。它只有在其他核糖体蛋白质全部完成重设计的背景下,才能被细胞所耐受。
关于AI应用的几点说明
如果没有大量AI工具的介入,上述研究成果恐怕难以实现。所有蛋白质设计工具均基于AI,其输出结果还通过荣获诺贝尔奖的AI蛋白质结构预测软件AlphaFold 2进行了验证。论文作者也特别指出,AI软件提出了多项大多数生物学家通常会回避的建议,例如将结构灵活、性质中性的异亮氨酸替换为带电氨基酸,或替换为刚性结构固定的氨基酸。
然而,研究结果同样揭示了现有AI模型的局限性——与人类不同,这些模型无法真正解释其决策过程。例如,不同模型给出的建议有时大相径庭,研究人员认为这可能意味着它们正在探索序列空间的不同区域,但实际情况是否如此,以及每个模型是否出于数学层面的原因而"不认可"其他模型的建议,目前尚不得而知。
这是论文中研究人员试图从模型输出结果反向推断其运作逻辑的诸多案例之一。在至少一个案例中,软件对所修改的异亮氨酸所在的整个二级结构元件(一段α螺旋)进行了重新设计,原因连研究人员自己都无从猜测。
这一现象提醒我们:就目前而言,这些软件本质上只是工具——它们让我们得以完成原本不可能实现的事情,但并不真正帮助我们加深理解。我们仍然需要依靠大脑中的神经网络来推理和思考各种现象。
当然,这种状况并非不可改变。在开发这类软件时,我们可以更加注重对其内部运作机制的可解释性,以获取对其决策过程的洞察。但就目前而言,重心仍放在(合理地)实现可用的工具上。
卓越成就,但实用价值几何?
总体而言,这是一项令人叹为观止的研究成果。这些蛋白质需要彼此相互作用,还要与核糖体RNA、转运RNA、信使RNA以及核糖体正在合成的生长蛋白质发生作用,更不用说还要与大亚基上所有普通蛋白质协同运作。每一个组分都经历了数十亿年的共同进化。在短短几年内就能对这一系统做出如此根本性的改变,实在令人叹服。
目前尚不清楚是什么原因导致这些细胞生长速度下降。可能是改造后的核糖体精确度降低,在组装氨基酸链时出错频率更高,产生了更多缺陷蛋白质;也可能是其催化速度减慢,成为细胞生长的瓶颈。这些问题都有待进一步实验探究,而让菌株经历一段时间的进化,或许也能在一定程度上恢复其生长速率。
我们能否以此为起点,最终实现完全不含异亮氨酸的基因组?目前我认为这仍属"存在可能"的范畴。细胞内还存在许多其他大型蛋白质复合体,其中某些可能会令AI工具束手无策。这两个实验室是否有时间和资金继续沿这条路径深入探索,还有待观察。不过,考虑到其他细胞组分在漫长演化中已发生了太多变化,我对这项研究能否真正揭示通用共同祖先之前生命的面貌仍持保留态度。
然而,这项研究或许能在另一个层面发挥作用——启发其他科学家设计新的实验,帮助我们更清晰地描绘出遗传密码简化状态下细胞的可能形态。
Q&A
Q1:研究人员为什么选择异亮氨酸作为去除的目标氨基酸?
A:研究人员通过分析大肠杆菌基因组发现,在不同物种的同源蛋白质比较中,异亮氨酸是最频繁被其他氨基酸替代的种类。此外,异亮氨酸与亮氨酸、缬氨酸同属疏水性氨基酸,结构高度相似,理论上更容易被替代。这两方面的证据共同支持了将异亮氨酸作为去除目标的选择。
Q2:AI工具在这项核糖体重设计研究中具体发挥了什么作用?
A:AI工具在整个研究中扮演了核心角色。研究团队使用了多款深度学习蛋白质设计软件,为无法简单替换异亮氨酸的蛋白质生成不含该氨基酸的替代序列,并用诺贝尔奖级别的AI蛋白质结构预测软件AlphaFold 2对设计结果进行验证。AI还提出了许多生物学家通常不会考虑的大胆改动,例如用带电氨基酸或刚性氨基酸替代原本灵活中性的异亮氨酸,最终帮助研究人员突破了多个关键瓶颈。
Q3:不含异亮氨酸的核糖体小亚基改造成功后,细胞表现如何?
A:改造成功的细胞能够正常存活,生长速度约为未经编辑的大肠杆菌细胞的60%。经过400代培养后,细胞积累了20至30个突变,但没有任何突变将异亮氨酸重新引入核糖体蛋白质,说明改造后的系统具有一定的稳定性。目前生长速度下降的具体原因尚不明确,可能与核糖体精确度降低或催化效率下降有关。