1. Новости
Заметки пользователей
05.05.2016 05:50
PDF
1584
0

Microsoft планирует решить проблему больших данных с помощью синтетической ДНК

Microsoft проводит эксперименты с синтетической ДНК для хранения цифровых данных и недавно заключила контракт на покупку десяти миллионов нитей ДНК у стартапа Twist Bioscience.

Microsoft работает над использованием ДНК для хранения данных в сотрудничестве с Университетом штата Вашингтон. Совместная исследовательская группа недавно опубликовала статью, в которой описывается архитектура для системы архивного хранения информации на основе ДНК. Система хранения ДНК-данных состоит из ДНК-синтезатора, кодирующего данные, которые должны быть сохранены в ДНК, контейнер для хранения с отделениями, в которых хранятся пулы ДНК, и секвенсор ДНК для считывания ДНК-последовательностей и преобразования их обратно в цифровые данные.

Microsoft планирует решить проблему больших данных с помощью синтетической ДНК

Система хранения ДНК-данных

Одной интересной проблемой, которую позволит решить ДНК-накопитель, является адресация. Основной единицей ДНК-носителя является цепь ДНК из 100-200 нуклеотидов, которая способна хранить 50-100 бит информации. Это означает, что типичные объекты данных сопоставляются с большим количеством нитей ДНК. Исследователи используют архитектуру "ключ-значение" (key-value), причем ключ сначала связан с пулом, содержащим требуемую цепь, а затем механизм произвольного доступа позволяет получить доступ к цепи внутри пула.

Еще одним интересным аспектом является представление данных. Поскольку ДНК представляет собой комбинацию из 4-х азотистых оснований (A - аденин, C - цитозин, G - гуанин, T - тимин), самый прямым подходом к представлению данных  может быть использование четвертичной системы счисления. Например, число 01110001 в двоичной системе может быть представлено, как 1301 в четвертичной, и, соответственно, переведено в последовательность оснований CTAC (цитозин-тимин-аденин-цитозин). Однако вместо этого исследователи выбрали троичную систему, так что это позволяет использовать один нуклеотид для коррекции ошибок. Таким образом, в приведенном выше примере, 01100001 будет отображаться как 01112 в троичной системе счисления и  сопоставляется с последовательностью ДНК CTCTG.

Согласно информации от Twist Bioscience, ДНК-технология имеет два ключевых преимущества над традиционными цифровыми запоминающими устройствами: 
- значительно более длительный срок службы - в соответствии с последней информацией время хранения ДНК-данных может составлять до 2000 лет;
- более высокая плотность данных, которая может достигать триллиона ГБ на один грамм ДНК.

Отмечается, что ДНК-хранилище не следует рассматривать как альтернативу флэш-памяти или жестким дискам. Исследователи сообщают, что этот метод может использоваться в качестве самого последнего уровня иерархии глубокого хранения данных, обеспечивая высокую плотность и надежность на срок от многих часов до нескольких дней.

Microsoft планирует решить проблему больших данных с помощью синтетической ДНК

Иерархия уровней хранения данных

Представитель Microsoft Даг Кармэн (Doug Carmean) пояснил, что первоначальные тесты с использованием ДНК "показали, что мы могли бы кодировать и восстанавливать 100% цифровых данных", но пока еще необходимо проделать большую работу, чтобы создать жизнеспособный коммерческий продукт.

0 комментариев
Оставлять комментарии могут только авторизованные пользователи