人类历史上,优秀存储介质的出现最终都引领了一个新的存储时代。 随着材料及技术的迭代,存储介质从岩石和动物骨头,到竹简丝帛,再到造纸术的出现,直到现代依靠磁性、电子或光学等介质进行数据存储【1-3】。
数据存储通常都包括信息编码、信息储存、信息读取等主要步骤。首先,将人对事物的认知转化为可被存储介质记载的标记(数据编码)。其次,将标记保留在存储介质上(数据存储)。 最后,通过对标记的识别,人获得存储介质上记载的事物(数据读取)。早在20世纪60年代,遗传存储的概念就已经被提出【4-5】,在研究者们的不懈努力下,DNA编码、DNA合成、DNA测序等技术逐步成熟,脱氧核糖核酸(DNA)终于成功完成了存储技术的闭环,真正拨云见日【6】。
DNA数据存储整体框架图
信息爆炸时代存储的解决方案
(DNA体外存储)
随着大数据、云计算和人工智能等技术为代表的网络计算新时代的到来,目前的数据存储能力已经不能满足日益增长的信息量的需求。信息生产与数据存储能力之间的差距逐步扩大。
DNA具有高达1018byte/mm3的存储密度【3, 5, 7-8】,几辆货车大小的DNA就可以容纳世界上产生的所有数据;其高存储密度还有助于以较低的能量成本长时间保存分子中的数据。而且,DNA易于复制,可通过PCR实现以极低的时间和资源成本复制大量数据。相比于商业磁带和光盘等档案存储介质的几十年寿命,DNA序列可从几千年前的化石中读出信息,说明DNA作为数据存储系统在自然界能长期保存【5】。这些优势使得DNA成为一种非常有前途的存储介质。
体外DNA存储系统是将存储介质DNA以脱水/冻干、添加剂或保护材料等方法保存在生物体体外,依托高通量DNA芯片合成技术和高通量二代测序技术来写入和读出数据。DNA编码技术作为其中的重要衔接,降低合成过程的难度,提升测序过程的容错。令人欣喜的是,体外DNA存储已实现了一定规模的自动化存储验证。Takahashi等【9】首次公开展示全自动DNA数据存储系统,微流体的最新进展同样令人鼓舞。
体外DNA存储过程
DNA存储时代新的拼图
(体内DNA存储)
体内DNA数据存储是借助细胞体内DNA组装技术或动态基因组工程将信息记录在细胞体内。与传统存储介质(硅基芯片,10 nm以下)相比,细胞(大多数1 um以上)尺寸较大且总存储密度较低,因此体内DNA数据存储不太可能成为一般主流数字数据存储的可行替代方案。而且对活细胞内的天然DNA进行修饰和添加的过程比较复杂,写入/读取成本较高。但体内DNA数据记录和存储可实现新的应用,例如:利用细胞自身复制能力,快速低成本地拷贝DNA数据;记录关于细胞历史和环境的信息;通过诱导CRISPR/Cas活性的方式实现反复的擦写和重写;结合基因线路设计,提供生物"逻辑门"发展新的思路。
体内DNA存储过程
障碍与挑战
(DNA存储的未来)
虽然DNA数据存储技术不断发展,但其在工程实践中依然面临着障碍。首先,DNA存储的读写通量与成本是最大的瓶颈。估计未来10年能够与主流云档案存储竞争的系统需要达到每秒千兆字节的读写通量,目前的合成能力与主流的档案云存储系统依然有6个数量级的差距,测序能力则有2~3个数量级的差距。成本方面,2016年磁带存储成本约为16美元/TB,并以每年约10%的速度下降,而阵列法DNA合成约为8亿美元/TB,比磁带高7~8个数量级【10】。其次,DNA合成和测序过程容易出错。DNA的合成会受到物理约束,例如GC含量、连续的AT和GC,以及同一链的不同部分相互互补产生二级结构;DNA测序也存在测序误差,例如对连续重复碱基进行测序。再次,在DNA分子的物理存储和保存中存在困难。DNA数据物理存储库需要在完全自动化和可扩展的模式下运行,同时又不能显著降低存储密度,这在很大程度上仍是一个有待研究的课题。
但合成DNA存储系统的未来依然光明。虽然通量和成本差距令人望而生畏,但预计相应的成本会不断降低,因为可将成本在更多数量的合成底物和更大批量的DNA中进行分摊。由于数据存储所需每个序列的拷贝数比生命科学低几个数量级,通过更多的平行合成和更小的生长点尺寸来提高通量也将以相应比例降低试剂使用成本。在学术界和工业界的共同努力下,相信在可预见的未来会有很多方法构建低成本且实用的DNA存储。
为了帮助评估并缩近与DNA存储时代的距离,军事科学院军事医学研究院王升启、滕越等总结了体外DNA存储数据库与体内分子存储器系统的研究进展,讨论了基于DNA分子的数据存储系统所涉及的各种影响因素以及面临的挑战。详情请点击阅读原文。
参考文献:
【1】Sheth R U, Wang H H. DNA-based memory devices for recording cellular events. Nature Reviews Genetics, 2018, 19(11): 718-732
【2】Goda K, Kitsuregawa M. The history of storage systems. Proceedings of the IEEE, 2012, 100(Special Centennial Issue): 1433-1440
【3】Rutten M G, Vaandrager F W, Elemans J A, et al. Encoding information into polymers. Nature Reviews Chemistry, 2018, 2(11): 365-381
【4】Wiener N. Machines smarter than men? Interview with Dr. Norbert Wiener, noted scientist. US News World Rep, 1964, 56: 84-86
【5】Neiman M S. On the molecular memory systems and the directed mutations. Radiotekhnika, 1965, 6: 1-8
【6】Li j, Yang S, Cui Y. Research progress of bacterial minimal genome. Hereditas, 2021, 43: 142-159
【7】Grass R N, Heckel R, Puddu M, et al. Robust chemical preservation of digital information on DNA in silica with errorcorrecting codes. Angewandte Chemie International Edition, 2015, 54(8): 2552-2555
【8】Yang S, Li J, Cui Y, et al. The current status and future prospects of DNA computing. Chinese Journal of Biotechnology, 2021, 37: 1120-1130
【9】Takahashi C N, Nguyen B H, Strauss K, et al. Demonstration of end-to-end automation of DNA data storage. Scientific Reports, 2019, 9(1): 4998
【10】Allentoft M E, Collins M, Harker D, et al. The half-life of DNA in bone: measuring decay kinetics in 158 dated fossils. Proceedings of the Royal Society B: Biological Sciences, 2012, 279(1748): 4724-4733
作者简介:
杨姗:军事科学院军事医学研究院。研究方向:DNA数据存储技术、DNA生物计算、人工智能医疗诊断。
陈垚峰:军事科学院军事医学研究院。研究方向:药物与靶点相互作用预测技术及DNA数据存储技术。
(作者:杨姗、陈垚峰)
(本文来源于公众号: 生物化学与生物物理进展)