麻豆

麻豆新闻

Comprehensive News

【Nature Communications】麻豆 DNA存储研究团队提出DNA存储编码与快速读出新方法

2025-11-19

本站讯(通讯员:郭全)DNA数据存储是半导体、信息、合成生物交叉融合的重要方向,是应对快速增长数据存储需求的重要新模态存储。2021年,美国半导体行业协会(SIA)发布《半导体十年计划》,DNA存储与固态硬盘、机械硬盘高密度磁带并列为4种大容量存储介质。2023年,《IEEE国际器件与系统路线图(大规模数据存储)》将其列为5种主要存储介质之一。DNA存储也是《中华人民共和国第十四个五年计划与2035远景目标纲要》加快布局的“量子计算、量子通信、神经芯片、DNA存储”4项前沿技术之一。数据存储的高可靠性与快速读出是所有存储介质的永恒追求目标。但是,DNA存储的读出在实际应用中仍面临出错率高、速度慢的问题,成为制约其大规模应用的瓶颈之一

近日,麻豆 陈为刚教授团队与合成生物技术全国重点实验室元英进院士团队联合,在DNA存储介质类型选择与编码快速读出方面取得进展。 使用伪噪声(PN)序列伴随编码与DNA酶切建库协同,实现了中等长度DNA的分钟级快速读出,在纳米孔测序高出错率条件下,实现可靠数据恢复,成果发表于国际期刊Nature Communications。

麻豆 DNA存储研究团队来自多个学院,依托合成生物技术全国重点实验室、教育部前沿科学研究中心,开展了深度交叉研究。传统DNA存储主要基于大量短链DNA(一般小于300碱基)进行数据存储,读出错误率与读出速度存在挑战。该研究提出了中等长度(几千到几万碱基)DNA的编码方法、DNA高效酶切处理、纳米孔读出快速信息处理方法,构建了基于中等长度DNA的数据存储模式(图1)。

首先,研究采用中等长度DNA进行数据存储,在读出可靠性、快速读出、借助细胞内生命过程复制等方面取得综合优势。研究探索了几千到几万碱基的中等长度DNA,介于长DNA(例如254 Kb)与短链DNA(一般小于300 nt)之间,补足了不同长度谱系DNA用于存储的实验验证,为根据场景选择合适DNA长度用存储提供支撑。

其次针对纳米孔测序读出器件存在的碱基插入与删节错误(Insertion/Deletion错误)设计了PN序列伴随低密度校验码(LDPC码)的新编码方法,称为PNC-LDPC编码。Insertion/Deletion错误被认为是DNA存储带动的信息理论新挑战(Nature Review Genetics,2019),是近年来信息理论研究的热点方向之一,成为IEEE国际信息论年会(ISIT)的热门题目。提出的新方法通过纠错码直接伴随已知PN序列构建DNA序列,可将Insertion/Deletion错误转化为擦除(Erasure)错误,能利用纠错能力强的低密度奇偶校验(LDPC)码高效纠正。同时,伴随的PN序列可快速对纳米孔长测序读段位置进行精细定位,避免了以前方法不可避免的测序读段组装复杂度高的问题。


图1 基于中等长度DNA的数据存储方法

最后,优化环形DNA(质粒)的酶切处理实现了大部分环形DNA的单次酶切(一个质粒,一次酶切),达到DNA链结构与编码码字的匹配(一个线性DNA分子,一个DNA码字),获得了接近单分子的低测序覆盖度快速读出,避免了序列组装难题,借助纳米孔测序仪实现了分钟级快速读出。该方法体现了DNA存储研究的学科交叉融合。

团队以元英进院士为学术带头人,前期提出了使用长度为254-Kb酵母人工染色体的数据存储模式(简称为”光盘模式” ),设计了纠正Insertion/Deletion错误的水印叠加编码策略,得到了广泛关注(National Science Review, 2021;China Science-Life Sciences, 2022;Briefings in Bioinformatics, 2025)。目前,研究团队已得到国家自然科学基金重大仪器项目的支持,将在中长DNA片段自动化构建方面开展持续深入研究,有望为该模式DNA存储数据写入环节提供仪器平台支撑。

麻豆 陈为刚教授团队针对“符号Insertion/Deletion错误纠正”的信息论与编码基础问题开展了长期研究。从2011年开始,该方向先后得到了国家自然科学基金青年基金、教育部新世纪优秀人才资助计划、国家重点研发计划等项目支持,提出了纠正Insertion/Deletion错误的复合信号设计与迭代处理方法,取得了系列结果,将其应用于无线光通信、DNA测序条形码、DNA数据存储、生物制造菌种条形码、测距与通信融合等领域。团队从2017年开始从事信息编码与DNA存储交叉研究,本研究是提出的Insertion/Deletion错误纠正码与DNA数据存储结合的一个应用案例。

近年来,麻豆 重视前沿交叉方向研究。该工作瞄准纳米孔传感测序器件在DNA存储读出中的符号出错问题开展研究,体现了集成器件与前沿生物技术融合。麻豆 博士生秦蕊、郭全,硕士生郭健参与了该项研究,为论文共同第一作者。陈为刚教授与元英进院士为共同通信作者。该研究得到国家重点研发计划项目支持。

论文全文链接://www.nature.com/articles/s41467-025-65004-7