北大最新Nature:利用表观遗传,将大熊猫照片存进DNA,实现更高效的DNA数据存储

全文1677字,阅读约需5分钟,帮我划重点

划重点

01北京大学研究团队在国际顶尖学术期刊 Nature 上发表了一篇关于DNA数据存储的新方法论文。

02该研究开发了一种受表观遗传学启发的DNA数据存储新方法——表观比特,可提高将数据写入DNA的速度和成本效益。

03通过自组装引导的酶促甲基化,研究团队实现了并行和选择性地将表观比特写入到DNA模板上。

04研究团队成功地将一张中国汉代拓片图像和一张熊猫照片存储进了DNA,并可被准确地印刷和检索出来。

05尽管如此,DNA存储在商业化之前还有很长的路要走,需要大幅降低成本,才能与当前的硅基材料存储相竞争。

以上内容由腾讯混元大模型生成,仅供参考

图片
图片
撰文丨王聪
编辑丨王多鱼
排版丨水成文

从智能手机和社交媒体到电子商务和科学研究,一切都在推动数据的空前激增。如今,每年产生的数据高达1021比特。随着数据的激增,我们对数据存储需求也不断增长,传统硅基材料存储难以满足日益增长的数据存储需求,这推动了人们寻求新的存储解决方案,例如基于DNA的存储


DNA具有超高存储密度仅1克DNA就足以存储1000万小时高清视频数据。此外,如果避免潮湿和紫外线照射,DNA可以保存数十万年之久。相比之下,硬盘往往需要每隔几年更换一次以数据损坏。因此,DNA显示出作为存储介质的巨大潜力。


然而,传统DNA数据存储方法依赖于从头合成DNA序列,这导致其局限性也十分突出——DNA合成速度慢、错误率高、合成费用昂贵

2024年10月23日,亚利桑那州立大学颜颢、北京大学定量生物学中心钱珑欧阳颀及北京大学计算机学院张成等人在国际顶尖学术期刊 Nature 上发表了题为:Parallel molecular data storage by printing epigenetic bits on DNA 的研究论文,北京大学计算机学院为该论文第一单位。

该研究描述了一种受表观遗传学启发的DNA数据存储新方法——表观比特(epigenetic bits)或可提高将数据写入DNA的速度和成本效益。

在该技术的演示中,研究团队将一张中国汉代拓片图像(16833比特)和一张熊猫照片(252504比特)存储进了DNA,其可被准确地印刷和检索出来。该技术有望为可持续、高密度数据存储技术不断增长的需求提供可规模化的解决方案。

图片

DNA存储显示出在存储密度、寿命和能源消耗方面超越当前硅基数据存储技术的潜力。然而,通过从头合成的方式将大规模数据直接写入DNA序列,在时间和成本上都不经济。


在这项最新研究中,研究团队开发了一种非常规的DNA数据写入框架,该框架允许基于DNA自组装引导的酶促甲基化将任意的表观比特(epigenetic bits)以并行方式稳定地写入DNA模板上。


具体来说,研究团队从自然发生的甲基化(DNA的表观遗传修饰)获得灵感,提出了一种无需合成的方法,通过自组装引导的酶促甲基化,通过一组预先制备的DNA活字和甲基转移酶DNMT1,实现并行和选择性地将表观比特写入到DNA模板上,就像在纸上印刷文字一样。首先,设计并预制通用的单链DNA (ssDNA)载体和互补短ssDNA“砖块”文库然后,通过将“砖块”文库装到DNA载体的相同加载序列上,任意表观比特信息被排版。接下来,碱基修饰(5-甲基胞嘧啶,5mC)通过DNMT1酶的选择性甲基化以并行的方式稳定地“打印”在DNA载体上


这种称为“表观比特”的方法,类似于传统的比特,以两个二进制值中的一个(0或1)来存储信息,对应碱基是否甲基化。研究团队通过使用有限的700种DNA活字和5个模板进行编程,在一个自动平台上实现了约27.5万个比特的免合成写入,每个反应的写入输出为350比特,远远超过依赖DNA从头合成的数据存储系统每个反应约1比特的输出量。

通过纳米孔测序,以复杂表观遗传模式编码的数据可以高通量检索,研究团队还开发了算法来精细解析每个测序反应的240个修饰模式。


图片

表观比特DNA存储示意图


该策略可以使用预先制备的核酸并行写入DNA中的任意数据,而不是从头合成。这种酶打印工艺可能会降低成本和时间,超过化学合成的限制,而且高度特异性的“砖块”模板DNA组装赋予了数据写入的准确性。


这一方法可用于存储图像和文本,研究团队展示了使用该方法存储一张中国汉代老虎拓印图像(16833比特)和一张熊猫照片图像(252504比特),通过纠错解码,存储的图像能够被完美恢复。

图片

基于表观比特条码的高位并行大规模存储


该研究还显示,60位没有专业生物实验室经验的志愿者用这个方法成功地编码了文本数据,展现出该方法的可靠性和可用性。

图片
定制和分布式表观比特DNA存储

表观比特DNA存储使用预制的DNA片段,因此可以进一步优化以进行批量生产,这将比通过定制合成DNA链来存储信息要便宜得多。但DNA存储在商业化之前还有很长的路要走,该领域还需要大幅降低成本,才能与当前的硅基材料存储相竞争。

总的来说,该研究提出了一种并行、可编程、稳定和可扩展的DNA数据存储新模式。这种非传统的模式为生物分子系统的实际数据存储和双模式数据功能开辟了途径。


论文链接
图片
设置星标,不错过精彩推文

图片

开放转载