В МТИ научили суперкомпьютер анализировать мировой веб-трафик

Автор: Евгений Штепан

Моделирование веб-трафика может помочь в обеспечении кибербезопасности, проектировании вычислительной инфраструктуры, разработке политики интернета, интернет-исследованиях.

Для своей работы исследователи из Массачусетского технологического института собрали самый большой общедоступный набор данных об интернет-трафике, включающий 50 миллиардов пакетов, которыми с 2015 года обменивались в разных точках земного шара (главным образом, в Японии и США). Данные загружались в нейросеть, работающую на 10 тысяч процессоров MIT SuperCloud. Модель автоматически обучалась находить взаимосвязь для всех соединений в общем наборе данных - от отсылки обычных пингов, до работы гигантов, например, Google и Facebook.

Модель может взять любой большой набор сетевых данных и сгенерировать некоторые статистические измерения того, как все соединения влияют друг на друга. Эта опция подходит для раскрытия информации об одноранговом (пиринговом) обмене файлами, о подозрительных IP-адресах, рассылке спама, распределении атак в критических секторах, а также об узких местах трафика, что позволит лучше распределять вычислительные ресурсы и поддерживать поток данных.

Исследователи сравнивают свою работу с измерением космического реликтового излучения, когда из почти однородных радиоволн, распространяющихся по нашей вселенной, создается общая картина космоса и воссоздается история Вселенной.

"Мы создали точную модель для измерения фона виртуальной вселенной Интернета. Если вы хотите обнаружить какие-либо отклонения или аномалии, у вас должна быть рабочая модель фона".

Джереми Кепнер, MIT Lincoln Laboratory

В интернет-исследовании эксперты изучают аномалии в веб-трафике, которые могут указывать, например, на киберугрозы. Для этого сначала нужно понять, как выглядит нормальный трафик, что само по себе становится непростой задачей. Традиционные модели анализа могут работать только с небольшими выборками данных, которыми обмениваются источники и пункты назначения с ограничениями по местоположению. В МТИ исследователи специально не пытались решить проблему анализа трафика. Они сконцентрировались на разработке новых методов, которые могли бы использоваться в MIT SuperCloud для обработки масштабных сетевых данных. Интернет-трафик стал для ученых идеальным тестовым примером. Но модель может использоваться и в других сферах.

Сети обычно представляют в форме графиков, состоящих из узлов-объектов и ссылок-связей. При обработке интернет-трафика узлы различаются по размерам и местоположению. Большие супер-узлы (супер-ноды) - это популярные хабы Google, Facebook и пр. Узлы-ответвления отходят из суперузла и также имеют несколько соединений друг с другом. Также исследователи обнаружили, что за пределами этого "ядра" суперузлов и конечных узлов находятся изолированные узлы и звенья, которые редко соединяются друг с другом.

Иллюстрация трафика с изолированными узлами: изолированные узлы (слева), которые редко подключаются к глобальной сети, но влияют на основной веб-трафик (справа)

В результате исследователи обратились к научному сообществу, чтобы развить полученную модель и найти ей новые применения. К примеру, она бы пригодилась экспертам для изучения роли изолированных узлов, которые редко встречаются, но, вероятно, влияют на веб-трафик в основных узлах. Также с помощью нейросети можно изучать аномалии в интернете с целью выявления вредоносных систем.

0 комментариев

Оставлять комментарии могут только авторизованные пользователи