Система зберігання даних на ДНК: як це працює і для чого потрібно?

Система зберігання даних на ДНК: як це працює і для чого потрібно?
Фото: Microsoft

Компанія Microsoft і дослідники Вашингтонського університету створили автоматизовану систему зберігання даних на ДНК, за допомогою якої записали, а після зчитали слово «hello», закодоване в ДНК нуклеотидами. У що ця технологія може вирости в майбутньому розповідає «Дім інновацій».

Компанія Microsoft зробила великий крок у бік заміни вінчестерів і SSD в центрах обробки даних на системи зберігання даних на ДНК. Прототип апарату вартістю в $10 тисяч, створений дослідниками Microsoft у співпраці з фахівцями Університету Вашингтону, здатний в автоматичному режимі перетворити будь-які цифрові дані в послідовність ДНК для зберігання, а потім зчитати з ДНК ці дані. Під час успішного експерименту, про результати якого робоча група повідомила зі сторінок журналу Nature, введене вченими в комп’ютер слово «hello» («привіт») було представлено у двійковому коді, який апарат закодував у послідовність ДНК, синтезував цю ДНК і зберіг отриманий ланцюжок у рідини. Далі, за запитом, ця ДНК була здобута зі сховища, секвенована, і переведена спочатку у двійковий код, а потім і у вихідне слово — «hello». Уся процедура перетворення слова в 1 міліграм ДНК і назад у слово зайняла 21 годину. Це дуже багато, але це лише початок, перша успішна спроба. Проривом тут є те, що система спрацювала без помилок у повністю автоматичному режимі без участі людини.

У чому ж важливість цього досягнення? У чому перспективність даної інновації? «Дім інновацій» розбирався в цьому питанні.

Система зберігання даних на ДНК: як це працює і для чого потрібно?
Так за допомогою електронних (червоні стрілки) і молекулярних (зелені стрілки) технологій дані зберігають у ДНК

Проблема зберігання даних у світі

Кількість цифрових даних, що генеруються, передаються і зберігаються на Землі, зростає з неймовірною швидкістю. Уже сьогодні для зберігання архівів цих даних потрібні величезні центри обробки даних (ЦОД), у яких використовуються мільйони стрічкових накопичувачів, вінчестерів і твердотільних дисків. Вони споживають неймовірну кількість електроенергії, залишаючи свій негативний відбиток на екології планети. Водночас термін зберігання даних на таких накопичувачах обчислюється роками або в кращому випадку десятиліттями, у зв’язку з чим кожен накопичувач із часом доводиться міняти на новий, і так раз за разом.

Але навіть цієї колосальної бази систем зберігання даних не вистачає для того, щоби зберегти все, що може бути необхідно. А з роками розрив між можливостями глобальних ресурсів ЦОД і обсягом даних, що генеруються людством, буде все зростати. Зараз, за оцінками дослідників, ми можемо зберегти приблизно 30% всіх даних, що генеруються, а до 2040 року цей показник скоротиться до 0,5%. Тобто, для зберігання 99,5% даних, що будуть створюватися та передаватися через мережі, у разі використанні сучасних технологій у нас просто не буде ресурсів. Щоб уникнути результату, коли від зберігання значної частини даних людству доведеться відмовитися, вчені задумалися над альтернативними способами зберігання цифрових даних. І задумалися давно…

Дуже Великі Дані:

  • Виробники накопичувачів із 2018-го по 2025 забезпечать постачання різного роду систем зберігання даних ємністю в 42 Збайт*
  • До 2025 року 90 Збайт даних буде генеруватися пристроями IoT («інтернет речей»)
  • У 2025 році в реальному часі буде споживатися приблизно 30% даних, що генеруються
  • У 2018 році глобальний користувацький інтернет трафік у місяць становив 129 Ебайт. У 2022 році, згідно з прогнозами, він складе 333 Ебайт у місяць.
  • У 2015 році у світі було згенеровано 12 Збайт даних (зростання в 120 разів із 2005 року і в 6 разів із 2010 року). До 2025 року, згідно з прогнозами, цей обсяг складе 163 Збайт.
*1 Збайт (зетабайт) це 10²¹ (1 000 000 000 000 000 000 000) байт, одна тисяча Ебайт (ексабайт), один мільйон Пбайт (петабайт) або один мільярд Тбайт (терабайт)

Як це часто буває, вирішення нагальної проблеми знайшлося в природі. До того ж, не довелося далеко ходити: воно знайшлося усередині живої людської клітини. Це ДНК, молекула дезоксирибонуклеїнової кислоти, яка використовується самою природою для зберігання й передачі генетичних даних від батьків до дітей. Парні азотисті основи, які вчені вміють розпізнавати в процесі секвенування, грають роль надлишкового масиву зберігання даних («дзеркального сховища»): дані тут продубльовані для того, щоб ані єдиний «біт» даних не загубився під час помилки запису, зберігання або зчитування в одній із копій генів. І в таку ДНК із дуже високою щільністю можна записати будь-які дані. Але про щільність даних — трохи пізніше.

Скоро людство зможе зберегти лише 0,5 % даних, що генеруються, і це є проблемою

Уперше ідею того, що в ДНК можна закодувати і зберегти корисні дані, ще в середині 1960-х висловив фізик Михайло Самойлович Нейман родом із Севастополя, розповівши про неї зі сторінок журналу «Радіотехніка». Відтоді людство досить повільно, але вірно, йшло до реалізації цієї технології.

Давайте розберемося, як же це може працювати?

З 1 і 0 на спіраль ДНК

Геном людини, який вміщує у 23 хромосомах і мітохондріальній ДНК приблизно 3,2 млрд пар нуклеотидів (A-T і G-С, про які нижче), умовно містить близько півтора гігабайт даних, але якщо врахувати «дзеркалювання», то вдвічи менше — приблизно 800 Мбайт. Тобто один компакт диск вміщується в крихітному наборі молекул, що містяться в ядрі й мітохондрії кожної соматичної клітини організму людини. Це просто мікроскопічний обсяг і неймовірна щільність сховища даних!

У геномі людини зберігається стільки ж даних, скільки вміщується на компакт-диску

Така неймовірна щільність стала можливою завдяки тому, що молекула, хоч і довга, проте дуже компактно згорнута. Якщо розгорнути всі молекули ДНК з одного ядра будь-якої клітини, то вийде ланцюжок довжиною орієнтовно 2 метри. А все молекули ДНК з усього організму людини в розгорнутому вигляді можна витягнути в ланцюг довжиною в десятки мільярдів кілометрів (за однією з версій 20 мільярдів км) — цю дистанцію можна порівняти з діаметром орбіти планети Нептун.

Як уже було сказано, ДНК складається нуклеотидів, утворених із чотирьох азотистих основ — це аденін (A), тимін (T), гуанін (G) і цитозин (C). Люди вже навчилися створювати біополімерні ланцюжка із заданою послідовністю A, T, C і G — ми можемо «синтезувати ДНК». Технічно у разі записи в ДНК даних кожна «комірка пам’яті» на спіралі (ділянка, у якій розміщується нуклеотид) може приймати одне з цих чотирьох значень. Для порівняння: у традиційній електроніці одна комірка зберігає один біт інформації, приймаючи один із двох станів — «ввімкнено» або «вимкнено», 1 або 0. Здавалося б, виходить, що в кожній «комірці пам’яті» ДНК можна зберігати вдвічі більше даних? Два біти інформації замість одного?

Довжину молекул ДНК у тілі людини можна порівняти з діаметром орбіти Нептуна

Коротко кажучи, відповідь — «ні, не можна». З ДНК не все так просто. Деякі послідовності нуклеотидів «заборонені» — вони змушують спіраль складатися, зв’язуючись один з одним, а послідовності нуклеотидів, що повторюються, складно «зчитувати» без помилок у процесі секвенування. Рішення цієї проблеми було знайдено в лабораторії Джорджа Черча в Гарвардському університеті в Кембриджі: дослідники від четвіркової системи перейшли всі ж до двійкової системи, і нуль вони запропонували кодувати за допомогою A або C, а одиницю — T або G. Тому на стадії кодування даних із двійкового коду в код ДНК спеціальна програма за заданим алгоритмом може підібрати такі послідовності з чотирьох основ, які дозволять уникнути складання ДНК, проблем зі зчитуванням, і взагалі будь-яких інших проблем, якщо вони і проявляться.

Крім того, під час кодування цифрових даних у ДНК використовуються різного роду алгоритми корекції помилок. Тому у разі втрати частини ДНК або помилки зчитування кількох нуклеотидів, під час декодуванні коду можна буде повністю відновити вихідні дані без помилок.

Який реальний обсяг даних у ДНК?

Отже, зберегти дані в ДНК можна. Скільки ж місця займе такий архів, якщо в нього записати досить багато даних? Чим він краще за наявні технології?

Серед традиційних систем зберігання даних, що використовуються в промисловості, зараз найбільшою популярністю користуються швидкі твердотільні накопичувачі (SSD, компактні накопичувачі на основі мікросхем флеш-пам’яті) і накопичувачі на жорстких магнітних дисках («вінчестери»). У найбільших масивах даних тривалого зберігання, до яких не потрібен дуже швидкий доступ і водночас важливо заощадити фінанси, використовуються стрічкові накопичувачі, «стримери», де дані пишуться на велику «касету» з магнітною стрічкою — на сьогодні їхня гіпотетична максимальна ємність наблизилася до 330 Тбайт на одну касету. Їхня проблема в порівняно невеликій швидкості запису, читання й пошуку інформації.

У вінчестерах щільність зберігання даних порівняно невелика, тому що сам по собі магнітний диск, на який записуються дані, вимагає ще й електромеханічного приводу, міцного герметичного корпусу, а також блоку електроніки. Для зберігання у флеш-пам’яті здебільшого потрібно тільки електроживлення та електронна схема управління. І в SSD щільність зберігання даних приблизно в тисячу разів вище, ніж у вінчестерах, і цей розрив поступово зростає. Рік тому, наприклад, був анонсований SSD-накопичувач форм-фактору 3,5” ємністю 100 Тбайт — Nimbus Data ExaDrive DC100, але на ринку вже доступний 2,5-дюймовий Samsung PM1643 MZILT30THMLA ємністю 30,72 Тбайт. А ємність вінчестерів, присутніх на ринку, не перевищує 15–18 Тбайт.

Система зберігання даних на ДНК: як це працює і для чого потрібно?

Однак дані, що зберігаються в ДНК, за максимальною щільністю зберігання легко заткнуть за пояс будь-яку з сучасних «електричних» технологій — потенційно, в об’ємі ДНК, який можна порівняти з об’ємом SSD, можна зберігати в тисячу й більше разів більше даних. І, що ще важливо: для зберігання цих даних не потрібно постійного електроживлення, та і зберігатися вони можуть дуже довго.

Для розуміння цієї колосальної щільності наведемо приклад: дослідники говорять, що всі дані на Землі теоретично можна зберегти на молекулах ДНК, які помістяться у звичайній коробці для взуття й будуть важити орієнтовно 1 кг. Звичайно, щоб успішно маніпулювати цими даними, їх доведеться утримувати в менш компактному вигляді — зараз їх зберігають і маніпулюють ними всередині рідин. Тоді щільність зберігання даних у сховищі зросте. Але навіть так система зберігання даних на ДНК дозволить домогтися колосальної економії й місця, й електроенергії, необхідних для сховища.

Усі дані на Землі можна зберегти на молекулах ДНК загальною вагою 1 кг, які помістяться у взуттєву коробку

Створити — записати — зберегти — зчитати

Програмна частина — кодування цифрових даних у код ДНК, — теж зрозуміла. Алгоритму кодування можна «згодувати» будь-які дані, і він згенерує послідовність A, T, C і G, з яких можна синтезувати молекулу ДНК, що не складеться, не склеїться, і її згодом можна буде легко зчитати.

Із самим синтезом ДНК теж проблем немає: наявні рішення, які нехай поки що довго й дорого, але вміють створювати ланцюжок ДНК. Межу швидкості запису даних у ДНК дослідники оцінюють приблизно в 100 біт у мікросекунду. Але, як то кажуть, «це не точно». На даний момент швидкість синтезу ще далека від ідеальної, хоча і зростає на кілька порядків щороку.

Зберігання, мабуть, теж не буде проблемою. У сприятливих умовах молекула ДНК зберігається без пошкодження надзвичайно довго. Поки що складно точно сказати, скільки будуть зберігатися синтезовані за допомогою існуючих технологій молекули ДНК, але вважається, що «період напіврозпаду» ДНК становить 521 рік. Зараз уже є випадки, коли вдавалося секвенувати ДНК, яка зберігалася в біоматеріалі — наприклад, у кістках мамонтів — десятки тисяч років. Загалом, можна записати дані в ДНК, висушити, помістити в колбу і сховати її на полицю — ось і все!

Прочитати ДНК — теж уже давно не проблема. Секвенування ДНК стало стандартною процедурою, яка доступна в будь-якій хорошій клініці репродуктивної медицини, лабораторії інституту генетики тощо. Відповідно, розшифрувати дані в ДНК після їх запису в молекулу теж не представить праці.

Що стосується вартості секвенування, то, для порівняння, перші проекти, спрямовані на читання геному людини, обходилися приблизно $100 млн, а зараз секвенування — звичайна процедура, доступна повсюдно, і коштує вона близько $1000. Менш, ніж за 15 років вартість цієї процедури впала в 100 000 разів, і ціна продовжує відчутно стрімко падати.Система зберігання даних на ДНК: як це працює і для чого потрібно?

ДНК-автомат для зберігання даних

Наступним каменем спотикання стала автоматизація процесу запису, зберігання та читання даних у ДНК. Досі усі процедури, пов’язані зі зберіганням та зчитуванням даних із ДНК, поділялися на кілька етапів і робилися вручну. Навіть такі подвиги вчених, як запис, а потім зчитування без помилок спочатку невеликих обсягів даних, потім 200 Мбайт, а після — до 1 Гбайт даних, включно з текстами, графікою й, навіть, музичним відео This Too Shall Pass групи OK Go, — усе це робилося здебільшого «вручну». Так, вчені навчилися навіть використовувати «довільний доступ до пам’яті», тобто зчитувати не всю ДНК, а тільки ті її фрагменти, які містять потрібну інформацію. Але водночас в кожній операції був необхідний кваліфікований співробітник лабораторії, який буквально в піпетці переносив матеріал від одного пристрою до іншого.

Й ось, нарешті, дослідникам Microsoft і Вашингтонського університету, підтримуваного корпорацією, вдалося створити повністю автоматизовану систему, яка може закодувати і зберегти дані в ДНК, а потім зчитати й розкодувати їх. Пристрій досить громіздкий, він не схожий на компактну флешку. Його імовірніше можна сплутати з невеликим стендом для хімічних дослідів. Але головне, що він справляється зі своїм завданням. Тепер, коли така система створена, її ефективність підтверджена, дослідникам і інженерам залишилося лише спростити, мініатюризувати її, зробити більш доступною і швидкодіючої. У майбутньому вона може стати прабатьком цілої лінійки подібних біохімічних систем зберігання даних на ДНК.

«Hello» без «world»

Усі програмісти колись починали зі створення програми для виведення на екран фрази «Hello, world!». Дослідники Microsoft, для яких жарти гіків із «Теорії великого вибуху» зовсім не чужі, для тестування свого диво-агрегату взяли слово «hello». Тому, як їм вдалося зберегти і вважати це коротке слово, присвячена ціла наукова публікація в журналі Nature.

Маніпуляція безпосередньо з молекулою ДНК — непроста процедура, тому що молекула дуже маленька. Тому в апараті Microsoft це робиться за допомогою рідини: молекула збиралася й переміщалася в краплі рідини в ємностях, і далі передавалася через тонкі трубочки. Для проштовхування цієї рідини на наступний етап використовувалися мікрофлюїдні насоси (насоси для роботи з мінімальними обсягами рідин).

Крім того, що вченим вдалося зберегти істотні обсяги даних, вони розробили методики маніпуляції цими даними. Так, вони вже навчилися знаходити в ДНК потрібні дані, не декодуючи весь «архів»: наприклад, знайти і витягти з масиву даних тільки зображення з конкретним об’єктом — зеленим яблуком, червоним велосипедом тощо. А за допомогою програмно-апаратної платформи, що складається з рішень Puddle і PurpleDrop, використовуючи відомі властивості води, у «сховищі» можна реалізувати систему переміщення крапель, що дозволяє розділяти і змішувати краплі, нагрівати й охолоджувати рідини. Так що Microsoft і дослідникам Університету Вашингтону вже є чим зайнятися, впроваджуючи дані технології у своєму автоматі. Система зроблена повністю модульною, і у разі появи нових технологій роботи з даними, можливостей синтезу або секвенування ДНК, їх можна буде в неї інтегрувати.

Перспективи

Сьогодні генетика й обчислювальна техніка переживають стрімкий розвиток. Технології, які раніше вважалися чимось на межі фантастики, як, наприклад, квантові обчислення й редагування геному, стають буденністю. Саме в ці галузі спрямовані зусилля безлічі з кращих умів планети. Тому варто очікувати, що слідом за успішним досвідом Microsoft в області зберігання даних на ДНК з’явиться маса інших, з усіх кінців Землі. Складно прогнозувати, коли ми побачимо досить ефективну, компактну, надійну й недорогу систему, що дозволяє зберігати істотні обсяги даних. Вчені й інженери приблизно за півстоліття прийшли від жорсткого диска на 5 Мбайт розміром із шафу до нинішніх компактних накопичувачів форм-фактору 3,5”, обсяг яких у 3 мільйони разів більше, а споживання енергії, час доступу до окремих комірок — незрівнянно нижче. Але сьогодні розвиток технологій йде набагато швидше, тому є підстави вважати, що комерційна система зберігання даних на ДНК може з’явитись уже в найближчому майбутньому.