【陈巍学基因】Watchmaker 的低起始量、低质量 RNA 样本的 RNA-seq 测序建库

陈巍学习基因

2023-06-01 09:15发布于上海

视频内容简介

介绍 Watchmaker 公司的低起始量、低质量 RNA 样本的 RNA-seq 测序建库试剂盒。

这个试剂盒通过优化酶、接头、操作流程等一系列改进，做到了能够对低起始量、低质量 RNA 样本（包括从 FFPE 石蜡样本中回收的 RNA）进行RNA-seq 测序建库的目的。并且能够得到良好的测序结果。

字幕内容

今天我要给大家介绍 watchmaker 公司的低起始量、低质量 RNA 样本的 RNA-seq 测序建库。

我们的介绍会分成五个部分：

一、Watchmaker 公司

二、低质量 RNA 建库原理

三、Watchmaker 公司做的改进

四、实测的效果

五、总结

接下来，我们先讲第一部分，watchmaker 公司的简介。

Watchmaker 是一家美国公司，公司总部位于科罗拉多州的博尔德市，Watchmaker 公司的主营业务，是通过基因工程、生物工程、AI（人工智能）手段，来开发高性能的酶，以及相关的试剂盒。

大家可能知道“定向进化”技术，这项技术曾获得 2018 年的诺贝尔奖。

它的原理是在已知的野生酶的基础上，对野生酶进行突变，然后对大量的突变酶进行性能筛选，找到性能好的突变株；再在性能好的突变株的基因基础上，再次做突变、再做筛选，找出性能更好的突变酶；反复多次，一直找到性能最好的突变酶。

如果说上面讲的技术是定向进化的 1.0 版的时代的技术，那么 watchmaker 公司的技术就是在引领“定向进化”技术进入 2.0 版时代。

Watchmaker的先用易出错的 PCR 酶，让目标酶的基因产生许多的突变，并将这些突变的基因片段组装进质粒，转化细菌或者细胞。

然后用类似 10x Genomics 公司的微流控技术，把单个的细胞或者细胞包进油包水的小液滴，用荧光等方法来检测小液滴中的酶的特征，也就是检测酶的表型。

然后，用高通量测序的方法，对这些小液滴中的酶的编码基因进行测序，得到酶的基因序列。

再接下来，通过生物信息学的算法，得到酶的蛋白序列，和对应的酶的表型之间的关系。

再接下来，用 AI 人工智能的算法，对各种序列组合的，和酶的多维的性能进行建模。

以 PCR 反应要用到的高温 DNA 聚合酶为例，一般我们会希望这个酶有多种优良的特性。例如：我们希望酶的合成速度要快，同时酶的合成距离要长，合成的产物保真率要高、错误率要低；另外我们还希望这个酶在高温下能够长时间保持稳定，不容易变性失活；还希望这个酶有热启动功能，以减少低温启动复制可能造成的非特异扩增。

我们对这样一个具体的酶，AI 就可以通过对前面得到的多种突变体的多维的性能进行计算，找到潜在的、可以同时满足多维度需求的这个酶的蛋白序列。

这就是 Watchmaker 的“定向进化 2.0 版”技术。

这里列出的是 watchmaker 公司开发出来的一系列高性能酶中的一部分。

第二部分，我们来谈低质量 RNA 建库原理。

（Watchmaker 的）这个低起始量、低质量 RNA 建库试剂盒的全名是：Watchmaker RNA Library prep kits with polaris depletion。

在讲 Watchmaker 的 RNA 建库试剂盒之前，我先要解释一下低质量 RNA （有降解的 RNA）建库的特殊之处。

要从低质量的、有降解的 RNA 样本中构建 RNA 测序文库，需要解决的首要问题是如何去除 rRNA，也就是核糖体 RNA。

这是因为 rRNA 占据了总 RNA 的大部分，而 rRNA 对分析样本的基因表达情况没有帮助，如果测序结果中包含了大量 rRNA 的数据，那会浪费宝贵的测序数据量。

对于没有降解的 RNA 样本，可以通过用带生物素的 poly(T) 的引物对（有） poly(A) 尾巴的 mRNA 进行靶向捕获。捕获后，再做下面的 RNA 逆转录等工作。

而 rRNA 没有 poly(A) 尾巴，就不会被 poly(T) 引物捕获，这样就可以避开 rRNA 对测序结果的干扰。

但是降解的 RNA 因为 RNA 链都断成了片段，mRNA 的编码区的 RNA 片段很可能失去了 poly(A) 尾巴，因此，降解的 RNA 无法用 poly(T) 引物捕获的方法，来避开 rRNA 引起的测序数据量的浪费问题。

需要设计别的方案来排除 rRNA 的干扰。

Watchmaker 公司试剂盒的解决方案，是针对性地去除 rRNA 和 Globin RNA，也就是珠蛋白 RNA（珠蛋白 RNA 在血液样本中常见的含量大，但却无分析意义）。

具体做法是针对 rRNA 和 Globin RNA 设计针对性的 DNA 引物集。

这些 DNA 引物会在反应液中，与 rRNA 和 Globin RNA 杂交结合，形成 RNA-DNA 杂交双链。在 RNase H 酶的作用下，RNA-DNA 杂交双链中的 RNA 会被酶降解。这样就去除掉了 rRNA 和 Globin RNA。

然后，再用 DNase I 去去除 DNA 引物。这样，就只留下了 RNA。

第三部分，我们来谈 watchmaker 在这个试剂盒上做的改进。

这是一个从 RNA 样本到文库的实验过程，先从与 DNA 探针进行杂交开始，去除 rRNA；再去除 DNA 探针；纯化；然后，再逆转录合成 cDNA 的第一链和第二链；连接测序接头；纯化后，把文库进行扩增，再纯化，得到可以上机测序的文库。到这里为止，这是一个完整的建库过程。

我们来看其中优化的环节。

1、把 DNA 探针与 RNA 进行杂交，并用 RNase H 降解 DNA-RNA 杂交双链中的 RNA 的这个步骤，Watchmaker 把原来分开的杂交和 RNA 酶解两个步骤，合并在一个步骤中完成。这样就节约了实验的时间。

在完成了第一步的杂交与 RNA 酶解后，有些公司的试剂盒是要做一步纯化的。

这样做，节省了纯化的过程和纯化所需要的时间。

在逆转录合成 cDNA 链的过程中，Watchmaker 是用一个定向进化得到的逆转酶，这个酶能够耐受抑制剂，模板转换活性高、合成效率高。

并且这个过程是链特异性反应。

接下来 Watchmaker 把合成 cDNA 的第二链，和在 DNA 片段的末端加 A 碱基。

把这两个步骤做成连续进行的，中间没有纯化的过程。这会比部分的竞品试剂盒少了一个纯过的过程。

再接下来是连接测序接头的步骤。Watchmaker用的连接酶的步骤，它的特点是连接效率高，转化率高，并且对位点的偏好性低。这一点可以减少最后构建出来的文库的偏向性。

接下来是 PCR 扩增文库，让文库达到足够上测序仪进行测序的量。

这里，Watchmaker 用的 PCR 酶是一款定向进化得来的 HiFi 酶。

这款酶有以下的特点：

1、高灵敏度和高扩增效率，适用于低超始量的文库

2、适用于高 GC 或者高 AT 的这种有挑战性的模板，对GC的偏好低，得到文库有高的覆盖均一性，和好的 UMI 家族均一性

3、这款酶是高保真酶，扩增出来的产物，它的碱基错配、和嵌合，这种人为的突变体会少

4、这款酶是有抗体来抑制低温条件下的聚合酶活性、和外切酶活性。只有经过 PCR 起始阶段的高温让抗体失活后，酶的聚合酶活性和外切酶活性才能活跃起来，这极大地减少了非特异性扩增的产物。

这是把 Watchmaker 的这个 RNA 建库流程与别的几家竞品公司的产品做比较。

图中画了 4 家公司的流程图。Watchmaker 有 4 个环节是可能比竞品更节省时间的

1、“杂交”和“RNA 酶解”，两步并一步，而且无需纯化，约能节省 30 到 40 分钟

2、DNA 酶解的时间相对于竞品是有所缩短的，约能省 15 分钟

3、这里可选的 FFPE 样本的处理步骤，如果是 FFPE 样本，加入这一步可以优化检测的性能；如果不是 FFPE 样本，则不选这一步，那么全部的流程所花费的时间就会缩短到 4.5 个小时

4、合并“合成 cDNA 的第二链”与“加 A”的步骤，在这两步之间不需要纯化，也可以节约 1 个多小时的时间。

因为在上述这 4 个环节节省了时间，所以 Watchmaker 的全部流程的时间是 5 个小时。

如果没有 FFPE 处理环节，还可进步一缩短到 4.5 个小时。

相比之下，竞品所需要的时间是 6.5 小时到 8 个小时。

另外，Watchmaker 由于全程的优化，所以它所需要的样本起始量，是从 10ng 到 1μg 的总 RNA，下限是 10ng 的总 RNA。

因为节省了若干的步骤，因此如果是手工操作的话，Watchmaker 可以比竞品所消耗的 hands-on 的时间少 31%，也就是操作员动手的时间少 31%。

因为减少了步骤，因此整个实验流程中，可以少用 33% 的 Tip 头。

也因为减少了步骤，所以 Watchmaker 的实验流程对于自动化的工作站更加友好，整个自动化的流程是比竞品省了 23% 的时间。

接下来，我们说第四部分，Watchmaker 的试剂盒做实验的实测效果。

这是用 Watchmaker 试剂盒做的全血 RNA 样本的文库的测序结果，与另外两家竞品公司的试剂的测序结果做比较。

左边这张图，是分了 4 种 RNA 起始量，从 500ng RNA逐步降低到 1ng 的 RNA；纵轴是显示测序结果中浪费的碱基，在全部测序得到的碱基中的占比。

三家公司，各自内部比较的结果，都是起始 RNA 量越低，浪费的碱基比例就越高。

横向比较，Watchmaker 的整体的碱基浪费比例，是比另两家竞品的浪费比例更低的。

细看，Watchmaker 的 1ng 的 RNA 起始量的浪费的碱基比例，和 N 公司的 10ng 的浪费的碱基比例相近，和 I 公司司的 500ng 的浪费的碱基比例相近。

再看右边这张图，右边这张图是显示用三家公司的试剂盒做的文库，在不同 RNA 起始量的条件下，分别能够测到多少独立的基因。

可以看到，从 500ng 到 1ng 的这 4 个组样本起始量，每一组都是 Watchmaker 得到的独立基因数比另外两家的多。而且，在 1ng RNA 起始量的条件下，Watchmaker 得到的独立基因数量明显超过另外两家得到的独立基因的数量。

从这项比较可以看到，Watchmaker 的测序结果中，浪费的碱基比例更少，得到的独立基因数更多。

这是用 Watchmaker 和另外两家竞品公司的试剂盒，从 2 个 FFPE 样本的 RNA 分别建库测序，比较每个基因被测到的 reads 数。

第一张图中是对 2 号石蜡块样本的测序结果，横轴是 N 公司司测到的每个基因的表达量，纵轴是 Watchmaker 测到的每个基因的表达量。

图中的每个点落在的位置，就是这个基因在两个试剂盒的测序结果中，测到的 reads 数所得到的那个交叉点。

我们可以看到，绝大多数的点，都在了对角线的左上方，也就是说，绝大多数的基因，在 Watchmaker 试剂盒建的库中测到的 reads 数都要多于在 N 公司的库中测到的 reads 数。

再看其它三张图，同样，我们可以看到，绝大多数的点，都落在了对角线的左上方。这也同样说明，对于大多数的基因，Watchmaker 测到的 reads 数，要多于竞品的文库测到的 reads 数。

这是 Watchmaker 和两家竞品公司的试剂盒做的 RNA 测序结果的重现性比较。

每张图中，横轴是样品在第 1 次测序中，得到的每一个基因的表达量；纵轴是在第 2 次的重复实验中，得到的每一个基因的表达量；图中每一个点所在的位置，就是每一个基因的在两次实验中所得到表达量的交叉点。

如果两次实验的重复性很高，则这些点都应该落在对角线的附近；反之，点离对角线越远，则重现性越差。

上面一排 3 张图，是用 block 2 这个 FFPE 样本做的结果，我们可以看到 Watchmaker 的相关系数 R 值为 0.88。两家竞品公司的 R 值分别为 0.80 和 0.86。Watchmaker 的 R 值是高于两家竞品公司的。

再看下面一排这 3 张图，是用 Block 4 这个 FFPE 样本做的结果。我们可以看到，Watchmaker 的 R 值是 0.98，高于两家竞品公司的 0.95 和 0.96。

再来看，这三家公司的试剂盒测到的基因数量。Block 2 中，Watchmaker 测到了 5 千多个基因；那两家竞品公司测到的基因数量，都在 2 千个基因左右。

再来看 block 4，Watchmaker 是测到了 1 万 3 千多个基因；而那两家竞品公司，分别是 8 千多个基因。显然，Watchmaker 公司所测到的基因数量，远多于两家竞品公司所测到的基因数量。

这是一家名为 Element Biosciences 公司用 Watchmaker 公司的这个 RNA 试剂盒，对 RNA 样本测序的结果。

一共是 4 次实验，用 10ng 和 500ng 两个样本量，做两次重复实验，所以一共是 4 次实验。

左图是对基因体的覆盖情况，横轴代表的是基因体从 5’端到 3’端的全长，纵轴代表的是覆盖在相应位置，Reads 的覆盖深度。

可以看到，4 次实验得到的 4 条曲线，重复性很高，而且对基因体的全长都有很好的覆盖。

右图，是 4 次实验检测到的基因数量，都接近于 2 万个基因。因为人总共就只 2 万个基因，所以几乎是检测到了人的所有的基因。

最后，我们做一下总结：

1、Watchmaker 的这个试剂盒，能从低起始量、低质量的RNA 样本中构建好的转录组文库。Watchmaker 对建库过程中用到几种酶做了定向进化，并做了生产工艺的改进。这些性能优良的酶结合重新设计并优化的实验流程，得出了良好的实验结果。

2、实测结果良好。逆耳生物公司用 Watchmaker 的试剂盒实测了 FFPE 样本。实验证明这个试剂盒可以很好地从 FFPE 样本的总 RNA 中构建出的转录组文库，并有良好的实验结果。

3、优化了步骤，节省时了间、节省了人工、节省了 Tip 头。Watchmaker 优化了实验的流程，合并了一些步骤，并减少了一些纯化步骤。最终的结果是减少了整个建库所花的时间，也减少了建库中的人工操作的时间。并且减少了实验中所要消耗的 Tip 头，有利于自动化操作。