В ДНК записали «Прибытие поезда» и операционную систему KolibriOS

Янив Эрлиx  (Yaniv Erlich) и Динa Зeлински (Dina Zielinski)  — сoтрудники Кoлумбийскoгo унивeрситeтa и Гeнoмнoгo цeнтрa в Нью Йoркe — рaзрaбoтaли нoвую тexнoлoгию зaписи инфoрмaции в ДНК, кoтoрaя приближaeтся к тeoрeтичeскoму прeдeлу пo плoтнoсти зaкoдирoвaннoй инфoрмaции, гaрaнтируeт нaдeжнoсть считывaния в услoвияx бoльшoгo кoличeствa oшибoк и спoсoбнa втиснуть до 215 петабайт данных в одном грамме нуклеиновой кислоты. Подробности метода опубликованы в журнале Science.

Информационные возможности ДНК стали понятны сразу после открытия ее структуры в 1953 году, зато в инженерном ключе ученые стали думать на эту тему лишь отчасти лет назад. Связано это прежде всего с резким падением стоимости химического синтеза и (особенно) стоимости чтения последовательности нуклеиновых кислот (о книжка, как это произошло, можно прочитать здесь).

Одна из первых серьезных работ, в которой информационные возможности ДНК были проверены получи и распишись практике, была проведена в 2012 коллективом под руководством известного молекулярного биолога Джоржа Чёрча (George Church). В то время ученые закодировали в последовательности ДНК книгу объемом в 52 тысячи слов, несколько jpeg-изображений и небольшую программу в JavaScript. Общий объем информации составил ~700 килобайт, которые уместились в 55 тысяч отдельных фрагментов ДНК длиной по части 159 нуклеотидов. Бóльшую (но не всю) часть закодированной информации если так удалось прочитать. Однако ни метода коррекции ошибок, ни системы избыточности в использованной Чёрчем и коллегами кодировке малограмотный было: бинарную последовательность просто переводили в последовательность нуклеотидов по принципу Вотан нуклеотид — один бит (аденин или цитозин соответствовал 0, гуанин или тимин — 1).

Подобная режим может быть использована для демонстрации возможности технологии, но на практике, (само собой), неприменима. В дальнейшем несколько других коллективов пытались использовать «настоящие», хорошо известные в теории информации методы кодирования и применить их на работы с ДНК. Например, ученые использовали классический код Рида-Соломона, какой-никакой позволяет исправлять ошибки в блоках данных и применяется, в частности, при записи информации получай CD. Однако этот код, по словам авторов новой статьи, не без меры хорошо подходит для ДНК: характер тех ошибок, которые возникают при ее копировании, приводит к большому разбросу в представленности олигонуклеотидов разного будто, особенно при большом объеме данных, что плохо сказывается на «читаемости» стих. Кроме того, полученная плотность кодирования информации (в тех работах, где использовался сей код) составляла всего около половины теоретического предела. Поэтому Эрих и Зелински решили подготовить собственный метод записи информации в ДНК, взяв за основу т. н. фонтанный шифр.

В ДНК содержится четыре типа оснований (A, T, G и C), поэтому максимальная плотность кодирования информации в ней может настигать двух бит на нуклеотид. В реальности же количество кодируемой информации держи символ всегда оказывается ниже: во-первых из-за необходимости вносить избыточность, которая должна предоставить ошибки синтеза и чтения фрагментов ДНК, во-вторых, из-за внесения «сервисных последовательностей», которые нужны во (избежание индексации (баркодинга) последовательностей, обеспечения возможности копирования ДНК в ПЦР и т. д. По расчетам авторов новой статьи (подробности приведены на этом месте) шенноновская плотность информации, учитывающая среднюю длину нуклеотидов, размеры адапторов с целью копирования и типичные ошибки синтеза составляет около 1,83 бит на нуклеозидфосфат. Использование нового метода позволило добиться информационной плотности, которая составляет 86% сего теоретического предела.

Кадр из киноролика братьев Люмьер, закодированного в ДНК новым методом. Public Domain

Работает новое программирование следующим образом. Сначала двоичная последовательность разбивается на непересекающиеся сегменты фиксированной длины в 32 байта, а впоследствии времени они кодируются с помощью т. н. «капель», — специальным образом полученных последовательностей чуть большей длины. Полученные лекарство затем переводятся напрямую в последовательность ДНК с максимальной плотностью (по два битка на нуклеотид), и — в этом состоит надстройка над фонтанным кодом — проверяются ровно по биохимическим ограничениям, которые накладывает техника чтения ДНК: фрагменты не должны содержать длинных однонуклеотидных повторов или участков со очень жирно буд большой или слишком малой долей GC-нуклеотидов (сотношение A+T/G+С влияет на физические свойства молекул). Коли кодирование приводит к нарушениям ограничений, оно просто повторяется заново до тех пор, того) (времени не удастся создать правильную последовательность. Полученный результат дополняют стандартными адаптерами угоду кому) ПЦР и отправляют на аппарат автоматического синтеза.

Ключевое отличие фонтанного кодирования заключается в волюм, что каждая «капля» кода содержит информацию о нескольких разных сегментах исходной последовательности — неведомо зачем, что даже потеря нескольких капель может быть компенсирована за счет других. На индексации же капель используется генератор случайных чисел, который добавляет т. н. зародыш в каждую из них — метод описан Майклом Люби из MIT еще в конце 90-х и в сегодняшнее время он широко используется при передаче мобильного видео, где возможно частое выпадение блоков информации.

В результате применения нового метода — фонтанного заключение, модифицированного авторами для работы с ДНК, — ученым удалось экспериментально закодировать и угадать 2,14 мегабайт информации в виде ДНК-олигонуклеотидов. В них уместилась подарочная локальная система Amazon, операционная система KolibriOS, статья Шеннона о передаче информации в зашумленном канале, видеофайл «Прибытия поезда» братьев Люмьер и инда один компьютерный вирус. Итоговая физическая плотность записи — ее измеряли в эксперименте с постепенным «гомеопатическим» разбавлением ДНК — составила 215 петабайт (215 000 000 гигабайт) в грамм нуклеиновой кислоты.

Главным результатом новой работы — далеко не первой в своей области — дозволяется назвать приближение к теоретическому пределу плотности и надежности кодирования информации на основе ДНК. Учитывая товарищество полученных данных к теоретическим пределам сложно надеяться на какое-то радикальное прогресс этих показателей в будущих работах. Сейчас главным препятствием к практическому применению ДНК в качестве носителя информации остается недоступность синтеза. Так, в новой работе итоговая стоимость «ДНК-флешки» составила 3,5 тысяч долларов следовать мегабайт данных. Однако оценивать эту цифру следует в правильном контексте: во-первых, однажды созданный такой носитель может быть легко скопирован почти не ограниченное количество присест. Во-вторых, текущая стоимость записи информации в ДНК является результатом применения обычного современного метода химического синтеза, разработанного прежде всего с приоритетом запросы точности. Как показано в новой работе, такая точность сильно избыточна в (видах задач хранения информации. Значительное снижение стоимости может быть достигнуто ослаблением сего требования, но пока такие «быстрые и грязные» методы синтеза ДНК малограмотный получили распространения из-за того, что у них не было практического применения.

Интересно, зачем новая работа хотя и превосходит по плотности записи все проделанные предварительно сих пор, существенно уступает им по объему данных. Так, в летнее время прошлого года учеными из Вашингтонского университета при финансовой поддержке частной компании посчастливилось записать в ДНК более 200 мегабайт данных, среди которых были оцифрованные произведения искусства, 100 литературных произведений из проекта «Гутенберг», Всеобщая объявление прав человека ООН более чем на 100 языках, база данных семян некоммерческой организации Crop Trust и видеоклип This Too Shall Pass группы OK Go в высоком разрешении.

Автор: Александр Ершов