Система хранения данных на ДНК: как это работает и для чего нужно?

Система зберігання даних на ДНК: як це працює і для чого потрібно?
Фото: Microsoft

Компания Microsoft и исследователи Вашингтонского университета создали автоматизированную систему хранения данных на ДНК, с помощью которой записали, а после считали слово «hello», закодированное в ДНК нуклеотидами. Во что эта технология может вырасти в будущем рассказывает «Дом инноваций».

Компания Microsoft сделала большой шаг в сторону замены винчестеров и SSD в центрах обработки данных на системы хранения данных на ДНК. Прототип аппарата стоимостью в $10 тысяч, созданный исследователями Microsoft в сотрудничестве со специалистами Университета Вашингтона, способен в автоматическом режиме превратить любые цифровые данные в последовательность ДНК для хранения, а затем считать из ДНК эти данные. В ходе успешного эксперимента, о результатах которого рабочая группа сообщила со страниц журнала Nature, введенное учеными в компьютер слово «hello» («привет») было представлено в двоичном коде, который аппарат закодировал в последовательность ДНК, синтезировал эту ДНК и сохранил полученную цепочку в жидкости. Далее, по запросу, эта ДНК была извлечена из хранилища, секвенирована, и переведена сначала в двоичный код, а затем и в исходное слово — «hello». Вся процедура превращения слова в 1 миллиграмм ДНК и обратно в слово заняла 21 час. Это очень много, но это лишь начало, первая успешная попытка. Прорывом здесь является то, что система сработала без ошибок в полностью автоматическом режиме без участия человека.

В чем же важность этого достижения? В чем перспективность данной инновации? «Дом инноваций» разбирался в этом вопросе.

Система хранения данных на ДНК: как это работает и для чего нужно?
Так с помощью электронных (красные стрелки) и молекулярных (зеленые стрелки) технологий данные сохраняются в ДНК

Проблема хранения данных в мире

Количество цифровых данных, генерируемых, передаваемых и хранимых на Земле, растет с неимоверной скоростью. Уже сегодня для хранения архивов этих данных требуются огромные центры обработки данных (ЦОД), в которых используются миллионы ленточных накопителей, винчестеров и твердотельных дисков. Они потребляют невероятное количество электроэнергии, оставляя свой негативный отпечаток на экологии планеты. При этом срок хранения данных на таких накопителях исчисляется годами или в лучшем случае десятилетиями, в связи с чем каждый накопитель со временем приходится менять на новый, и так раз за разом.

Но даже этой колоссальной базы систем хранения данных не хватает для того, чтобы сохранить все, что может быть необходимо. А с годами разрыв между возможностями глобальных ресурсов ЦОД и объемом генерируемых человечеством данных будет все расти. Сейчас, по оценкам исследователей, мы можем сохранить около 30% всех генерируемых данных, а к 2040 году этот показатель сократится до 0,5%. То есть, для хранения 99,5% данных, создаваемых и передаваемых через сети, при использовании современных технологий у нас попросту не будет ресурсов. Чтобы избежать исхода, при котором от хранения значительной части данных человечеству придется отказаться, ученые задумались над альтернативными способами хранения цифровых данных. И задумались давно…

Очень Большие Данные:

  • Производители накопителей с 2018 по 2025 год поставят разного рода систем хранения данных емкостью в 42 Збайт*
  • К 2025 году 90 Збайт данных будет генерироваться устройствами IoT («интернет вещей»)
  • В 2025 году в реальном времени будет потребляться около 30% генерируемых данных
  • В 2018 году глобальный пользовательский интернет трафик в месяц составлял 129 Эбайт. В 2022 году, согласно прогнозам, он составит 333 Эбайт в месяц.
  • В 2015 году в мире было сгенерировано 12 Збайт данных (рост в 120 раз с 2005 года и в 6 раз с 2010 года). К 2025 году, согласно прогнозам, этот объем составит 163 Збайт.
*1 Збайт (зеттабайт) это 10²¹ (1 000 000 000 000 000 000 000) байт, одна тысяча Эбайт (эксабайт), один миллион Пбайт (петабайт) или один миллиард Тбайт (терабайт)

Как это часто бывает, решение насущной проблемы нашлось в природе. Более того, не пришлось далеко ходить: оно нашлось внутри живой человеческой клетки. Это ДНК, молекула дезоксирибонуклеиновой кислоты, которая используется самой природой для хранения и передачи генетических данных от родителей к детям. Парные азотистые основания, которые ученые умеют распознавать в процессе секвенирования, играют роль избыточного массива хранения данных («зеркального хранилища»): данные здесь продублированы для того, чтобы ни один «бит» данных не потерялся при ошибке записи, хранения или считывания в одной из копий генов. И в такую ДНК с очень высокой плотностью можно записать любые данные. Но о плотности данных — чуть позже.

Скоро человечество сможет сохранить лишь 0,5% генерируемых данных и это проблема

Впервые идею того, что в ДНК можно закодировать и сохранить полезные данные, еще в середине 1960-х высказал физик Михаил Самойлович Нейман родом из Севастополя, рассказав о ней со страниц журнала «Радиотехника». С тех пор человечество довольно медленно, но верно, шло к реализации этой технологии.

Давайте разберемся, как же это может работать?

Из 1 и 0 на спираль ДНК

Геном человека, вмещающий в 23 хромосомах и митохондриальной ДНК примерно 3,2 млрд пар нуклеотидов (A–T и G–С, о которых ниже), условно содержит около полутора гигабайт данных, но если учесть «зеркалирование», то в два раза меньше — около 800 Мбайт. То есть один компакт диск помещается в крошечном наборе молекул, содержащихся в ядре и митохондрии каждой соматической клетки организма человека. Это просто микроскопический объем и невероятная плотность хранилища данных!

В геноме человека хранится столько же данных, сколько помещается на компакт-диск

Такая невероятная плотность стала возможной благодаря тому, что молекула, хоть и длинная, но при этом очень компактно свернута. Если развернуть все молекулы ДНК из одного ядра любой клетки, то получится цепочка длиной около 2 метров. А все молекулы ДНК из всего организма человека в развернутом виде можно вытянуть в цепь длиной в десятки миллиардов километров (по одной из версий 20 миллиардов км) — эта дистанция сравнима с диаметром орбиты планеты Нептун.

Длина молекул ДНК в теле человека сравнима с диаметром орбиты Нептуна

Как уже было сказано, ДНК состоит нуклеотидов, образованных из четырех азотистых оснований — это аденин (A), тимин (T), гуанин (G) и цитозин (C). Люди уже научились создавать биополимерные цепочки с заданной последовательностью A, T, C и G — мы можем «синтезировать ДНК». Технически при записи в ДНК данных каждая «ячейка памяти» на спирали (участок, в котором размещается нуклеотид) может принимать одно из этих четырех значений. Для сравнения: в традиционной электронике одна ячейка хранит один бит информации, принимая одно из двух состояний — «включено» или «выключено», 1 или 0. Казалось бы, получается, что в каждой «ячейке памяти» ДНК можно хранить в два раза больше данных? Два бита информации вместо одного?

Коротко говоря, ответ — «нет, нельзя». С ДНК не все так просто. Некоторые последовательности нуклеотидов «запрещены» — они заставляют спираль складываться, связываясь друг с другом, а повторяющиеся последовательности нуклеотидов сложно «считывать» без ошибок в процессе секвенирования. Решение этой проблемы было найдено в лаборатории Джорджа Черча в Гарвардском университете в Кембридже: исследователи от четверичной системы перешли все же к двоичной системе, и ноль они предложили кодировать с помощью A или C, а единицу — T или G. Поэтому на стадии кодирования данных из двоичного кода в код ДНК специальная программа по заданному алгоритму может подобрать такие последовательности из четырех оснований, которые позволят избежать складывания ДНК, проблем со считыванием, и вообще любых других проблем, если они и проявятся.

Кроме того, при кодировании цифровых данных в ДНК используются разного рода алгоритмы коррекции ошибок. Поэтому при потере части ДНК или ошибках считывания нескольких нуклеотидов, при декодировании кода можно будет полностью восстановить исходные данные без ошибок.

Какой реальный объем данных в ДНК?

Итак, сохранить данные в ДНК можно. Сколько же места займет такой архив, если в него записать достаточно много данных? Чем он лучше используемых технологий?

Среди традиционных систем хранения данных, используемых в промышленности, сейчас наибольшей популярностью пользуются быстрые твердотельные накопители (SSD, компактные накопители на основе микросхем флэш-памяти) и накопители на жестких магнитных дисках («винчестеры»).  В самых больших массивах данных длительного хранения, к которым не нужен очень быстрый доступ и при этом важно сэкономить финансы, используются ленточные накопители, «стримеры», где данные пишутся на большую «кассету» с магнитной лентой — на сегодняшний день их гипотетическая максимальная емкость приблизилась к 330 Тбайт на одну кассету. Их проблема в сравнительно небольшой скорости записи, чтения и поиска информации.

В винчестерах плотность хранения данных сравнимо невелика, так как сам по себе магнитный диск, на который записываются данные, требует еще и электромеханического привода, прочного герметичного корпуса, а также блока электроники. Для хранения во флэш-памяти по большей части нужно только электропитание и электронная схема управления. И в SSD плотность хранения данных примерно в тысячу раз выше, чем в винчестерах, и этот разрыв постепенно растет. Год назад,  примеру, был анонсирован SSD-накопитель форм-фактора 3,5” емкостью 100 Тбайт — Nimbus Data ExaDrive DC100, но на рынке уже доступен 2,5-дюймовый Samsung PM1643 MZILT30THMLA емкостью 30,72 Тбайт. В свою очередь винчестеры, присутствующие на рынке, не превышают по емкости 15-18 Тбайт.Система хранения данных на ДНК: как это работает и для чего нужно?

Однако данные, хранимые в ДНК, по максимальной плотности хранения легко заткнут за пояс любую из существующих «электрических» технологий — потенциально, в объеме ДНК, сопоставимом с объемом SSD, можно хранить в тысячу и более раз больше данных. И, что еще важно: для хранения этих данных не нужно постоянного электропитания, да и храниться они могут очень долго.

Для понимания этой колоссальной плотности приведем пример: исследователи говорят, что все данные на Земле теоретически можно сохранить на молекулах ДНК, которые поместятся в обычной обувной коробке и будут весить около 1 кг. Конечно, чтобы успешно манипулировать этими данными, их придется содержать в менее компактном виде — сейчас их хранят и манипулируют ими внутри жидкостей. Тогда плотность хранения данных в хранилище возрастет. Но даже так система хранения данных на ДНК позволит добиться колоссальной экономии и места, и электроэнергии, требуемых для хранилища.

Все данные на Земле можно сохранить на молекулах ДНК общим весом 1 кг, которые поместятся в обувную коробку

Создать — записать — сохранить — считать

Программная часть — кодирование цифровых данных в код ДНК, — тоже ясна. Алгоритму кодирования можно «скормить» любые данные, и он сгенерирует последовательность A, T, C и G, из которых можно синтезировать молекулу ДНК, которая не сложится, не склеится, и ее впоследствии можно будет легко считать.

С самим синтезом ДНК тоже проблем нет: существующие решения, которые пусть пока долго и дорого, но умеют создавать цепочку ДНК. Предел скорости записи данных в ДНК исследователи оценивают примерно в 100 бит в микросекунду. Но, как говорится, «это не точно». На данный момент скорость синтеза еще далека от идеальной, хотя и растет на несколько порядков каждый год.

Хранение, видимо, тоже не составит труда. В благоприятных условиях молекула ДНК хранится без повреждения чрезвычайно долго. Пока что сложно точно сказать, сколько будут храниться синтезированные с помощью существующих технологий молекулы ДНК, но считается, что «период полураспада» ДНК составляет 521 год. Сейчас уже есть случаи, когда удавалось секвенировать ДНК, хранившуюся в биоматериале — к примеру, в костях мамонтов — десятки тысяч лет. В общем, записал данные в ДНК, дегидрировал, поместил в колбочку и спрятал ее на полку — вот и все!

Прочитать ДНК — тоже уже давно не проблема. Секвенирование ДНК стало стандартной процедурой, которая доступна в любой хорошей клинике репродуктивной медицины, лаборатории института генетики и т.п. Соответственно, расшифровать данные в ДНК после их записи в молекулу тоже не представит труда.

Что касается стоимости секвенирования, то, для сравнения, первые проекты, направленные на чтение генома человека, обходились примерно $100 млн, а сейчас секвенирование — рядовая процедура, доступная повсеместно, и стоит она около $1000. Менее, чем за 15 лет стоимость этой процедуры упала в 100 000 раз, и цена продолжает ощутимо стремительно падать.Система хранения данных на ДНК: как это работает и для чего нужно?

ДНК-автомат для хранения данных

Следующим камнем преткновения стала автоматизация процесса записи, хранения и чтения данных в ДНК. До сих пор все процедуры, связанные с хранением и считыванием данных из ДНК, разделялись на несколько этапов и проделывались вручную. Даже такие подвиги ученых, как запись, а потом считывание без ошибок сначала небольших объемов данных, потом 200 Мбайт, а после — до 1 Гбайт данных , включая тексты, графику и даже музыкальное видео This Too Shall Pass группы OK Go, — все это делалось по большей части «вручную». Да, ученые научились даже использовать «произвольный доступ к памяти», то есть считывать не всю ДНК, а только те ее фрагменты, которые содержат нужную информацию. Но при этом в каждой операции был необходим квалифицированный сотрудник лаборатории, который буквально в пипетке переносил материал от одного устройства к другому.

И вот, наконец, исследователям Microsoft и Вашингтонского университета, поддерживаемого корпорацией, удалось создать полностью автоматизированную систему, которая может закодировать и сохранить данные в ДНК, а потом считать и раскодировать их. Устройство довольно громоздкое, оно не похоже на компактную флэшку. Его скорее можно спутать с небольшим стендом для химических опытов. Но главное, что оно справляется со своей задачей. Теперь, когда такая система создана, ее эффективность подтверждена, исследователям и инженерам осталось лишь упростить, миниатюризировать ее, сделать более доступной и быстродействующей. В будущем она может стать прародителем целой линейки подобных биохимических систем хранения данных на ДНК.

«Hello» без «world»

Все программисты когда-то начинали с создания программы для вывода на экран фразы «Hello, world!». Исследователи Microsoft, которым шутки гиков из «Теории большого взрыва» вовсе не чужды, для тестирования своего чудо-агрегата взяли слово «hello». Тому, как им удалось сохранить и считать это короткое слово, посвящена целая научная публикация в журнале Nature.

Манипуляция непосредственно с молекулой ДНК — непростая процедура, так как молекула очень маленькая. Поэтому в аппарате Microsoft это делается с помощью жидкости: молекула собиралась и перемещалась в капле жидкости в емкостях, и далее передавалась через тонкие трубочки. Для проталкивания этой жидкости на следующий этап использовались микрофлюидные насосы (насосы для работы с минимальными объемами жидкостей).

Кроме того, что ученым удалось сохранить существенные объемы данных, они разработали методики манипуляции этими данными. Так, они уже научились находить в ДНК нужные данные, не декодируя весь «архив»: к примеру, найти и извлечь из массива данных только изображения с конкретным объектом — зеленым яблоком, красным велосипедом и т. п. А с помощью программно-аппаратной платформы, состоящей из решений Puddle и PurpleDrop, используя известные свойства воды, в «хранилище» можно реализовать систему перемещения капель, позволяющую разделять и смешивать капли, нагревать и охлаждать жидкости. Так что Microsoft и исследователям Университета Вашингтона уже есть чем заняться, внедряя данные технологии в своем автомате. Система сделана полностью модульной, и при появлении новых технологий работы с данными, возможностей синтеза или секвенирования ДНК, их можно будет в нее интегрировать.

Перспективы

Сегодня генетика и вычислительная техника переживают стремительное развитие. Технологии, ранее считавшиеся чем-то на грани фантастики, как, например, квантовые вычисление и редактирование генома, становятся обыденностью. Именно в эти отрасли направлены усилия множества из лучших умов планеты. Поэтому стоит ожидать, что вслед за успешным опытом Microsoft в области хранения данных на ДНК появится масса других, со всех концов Земли. Сложно прогнозировать, когда мы увидим достаточно эффективную, компактную, надежную и недорогую систему, позволяющую хранить существенные объемы данных. Ученые и инженеры примерно за полстолетия пришли от жесткого диска на 5 Мбайт размером со шкаф к нынешним компактным накопителям форм-фактора 3,5”, объем которых в 3 миллиона раз больше, а потребление энергии, время доступа к отдельным ячейкам — несравнимо ниже. Но сегодня развитие технологий идет гораздо быстрее, поэтому есть основания полагать, что коммерческая система хранения данных на ДНК может увидеть свет уже в обозримом будущем.