ДНК естественным
образом состоит из комбинаций четырех азотистых оснований: аденина, гуанина,
цитозина и тимина. Обозначенные буквами A, G, C и T, эти основания группируются
в различных последовательностях, образуя чертежи для каждого живого организма.
И эта система хранения информации невероятно плотная: один грамм ДНК способен
хранить до 215 петабайт (215 миллионов ГБ) данных.
Это делает его
очень привлекательным потенциальным решением для хранения огромных объемов
данных, которые современное общество производит ежедневно — все содержимое
Интернета может поместиться в обувной коробке, полной ДНК. И как будто это
хранилище было недостаточно плотным, исследователи нового исследования нашли
способ удвоить его.
Наряду с обычными
A, G, C и T команда добавила дополнительные семь «букв» в алфавит ДНК. Они
принимают форму химически модифицированных нуклеотидов, открывая более
разнообразные комбинации, которые позволяют хранить больше информации в том же
объеме физического пространства.
«Представьте себе английский алфавит», — говорит Касра Табатабаи, соавтор исследования. «Если бы было только четыре буквы, можно составить столько-то слов. Если бы был полный алфавит, можно создавать неограниченное количество комбинаций слов. То же самое и с ДНК. Вместо того, чтобы преобразовывать нули и единицы в A, G, C и T, мы можем преобразовать нули и единицы в A, G, C, T и семь новых букв в алфавите хранения».
Конечно,
добавление дополнительных нуклеотидов означает, что существующие системы
обратного считывания данных не распознают их, поэтому команда также разработала
новую систему, которая может это делать. Нить ДНК проходит через нанопоры в
специально разработанном белке, который может обнаруживать отдельные единицы
независимо от того, являются ли они природными или синтетическими. Затем
алгоритмы машинного обучения декодируют информацию, хранящуюся внутри.
«Мы испробовали
77 различных комбинаций 11 нуклеотидов, и наш метод смог идеально
дифференцировать каждую из них», — сказал Чао Пан, соавтор исследования.
«Структура глубокого обучения как часть нашего метода идентификации различных
нуклеотидов является универсальной, что позволяет обобщать наш подход во многих
других приложениях».
В дополнение к
плотности новый метод также повышает скорость записи данных, что обычно
является довольно медленным процессом для ДНК. Эта система примерно вдвое
сократила время, необходимое для записи информации в ДНК.
Эта работа может
помочь сделать ДНК жизнеспособной системой хранения данных, хотя предстоит еще
много работы.
Исследование было
опубликовано в журнале Nano Letters.
Комментарии: