Microsoft проводит эксперименты с синтетической ДНК для хранения цифровых данных и недавно заключила контракт на покупку десяти миллионов нитей ДНК у стартапа Twist Bioscience.
Microsoft работает над использованием ДНК для хранения данных в сотрудничестве с Университетом штата Вашингтон. Совместная исследовательская группа недавно опубликовала статью, в которой описывается архитектура для системы архивного хранения информации на основе ДНК. Система хранения ДНК-данных состоит из ДНК-синтезатора, кодирующего данные, которые должны быть сохранены в ДНК, контейнер для хранения с отделениями, в которых хранятся пулы ДНК, и секвенсор ДНК для считывания ДНК-последовательностей и преобразования их обратно в цифровые данные.
Система хранения ДНК-данных
Одной интересной проблемой, которую позволит решить ДНК-накопитель, является адресация. Основной единицей ДНК-носителя является цепь ДНК из 100-200 нуклеотидов, которая способна хранить 50-100 бит информации. Это означает, что типичные объекты данных сопоставляются с большим количеством нитей ДНК. Исследователи используют архитектуру "ключ-значение" (key-value), причем ключ сначала связан с пулом, содержащим требуемую цепь, а затем механизм произвольного доступа позволяет получить доступ к цепи внутри пула.
Еще одним интересным аспектом является представление данных. Поскольку ДНК представляет собой комбинацию из 4-х азотистых оснований (A - аденин, C - цитозин, G - гуанин, T - тимин), самый прямым подходом к представлению данных может быть использование четвертичной системы счисления. Например, число 01110001 в двоичной системе может быть представлено, как 1301 в четвертичной, и, соответственно, переведено в последовательность оснований CTAC (цитозин-тимин-аденин-цитозин). Однако вместо этого исследователи выбрали троичную систему, так что это позволяет использовать один нуклеотид для коррекции ошибок. Таким образом, в приведенном выше примере, 01100001 будет отображаться как 01112 в троичной системе счисления и сопоставляется с последовательностью ДНК CTCTG.
Согласно информации от Twist Bioscience, ДНК-технология имеет два ключевых преимущества над традиционными цифровыми запоминающими устройствами:
- значительно более длительный срок службы - в соответствии с последней информацией время хранения ДНК-данных может составлять до 2000 лет;
- более высокая плотность данных, которая может достигать триллиона ГБ на один грамм ДНК.
Отмечается, что ДНК-хранилище не следует рассматривать как альтернативу флэш-памяти или жестким дискам. Исследователи сообщают, что этот метод может использоваться в качестве самого последнего уровня иерархии глубокого хранения данных, обеспечивая высокую плотность и надежность на срок от многих часов до нескольких дней.
Иерархия уровней хранения данных
Представитель Microsoft Даг Кармэн (Doug Carmean) пояснил, что первоначальные тесты с использованием ДНК "показали, что мы могли бы кодировать и восстанавливать 100% цифровых данных", но пока еще необходимо проделать большую работу, чтобы создать жизнеспособный коммерческий продукт.