Роботы проекта Домены России

Проект Домены России использует ряд программно-аппаратных решений (роботов, ботов, пауков) для сбора данных об инфраструктуре российских и международных сегментов Интернета.

Веб

User-Agent: "Mozilla/5.0 (compatible; statdom.ru/Bot; +https://statdom.ru/bot.html)"

Данный идентификатор в HTTP-запросах относится к семейству роботов, предназначенных для сбора статистической информации о веб-сайтах и веб-технологиях.

Роботы получают и анализируют доступную информацию о контенте веб-страниц, об используемых системах управления контентом (CMS), о типах и версиях веб-сервера, присутствии различных веб-скриптов и характерных HTML-конструкций. Роботы могут соединяться с веб-сервером как по HTTP (80/tcp), так и по защищённой версии этого протокола - HTTPS (443/tcp). Опрос сайта включает набор GET-запросов: к файлу robots.txt, к индексной странице (ресурс /), к другим страницам сайта, ссылки на которые удалось обнаружить в составе индексной страницы. Роботы подчиняются директивам Crawl-delay из файла robots.txt.

Подмножество исследуемых узлов формируется следующим образом:

  • Для каждого из делегированных доменов определяется IP-адрес узла, путём отправки DNS-запроса на извлечение A-записи к соответствующему авторитативному NS-серверу;
  • Домены, для которых IP-адрес получить не удалось, относятся к категории «Не распознан»;
  • Если IP-адрес определен успешно, на него отправляется набор HTTP-запросов. Анализируются результаты ответов веб-сервера, в том числе, со статусом 200 OK или HTTP-редиректами различного типа (с глубиной не более трёх).

То есть, в список исследуемых веб-узлов попадают публично доступные веб-серверы, адреса которых опубликованы в глобальной системе доменных имён.

Нагрузка от одного визита робота сопоставима с той, которую создаёт реальный посетитель сайта, открывший главную страницу и последовательно просмотревший несколько других страниц. Опросы каждого исследуемого веб-узла производятся не чаще нескольких раз в месяц.

Для того, чтобы исключить какой-либо сайт из числа опрашиваемых роботом, администратору сайта следует на уровне конфигурации веб-сервера или файлов управления доступом (.htaccess) запретить любые HTTP-запросы с IP-адресов бота.

TLS

Для сбора общедоступных сведений, характеризующих внедрение технологий защиты информации в Рунете, в частности о технологиях TLS, используется другой специализированный бот. Данный бот генерирует запросы, отправляемые на номера портов 443, 465, 25 по протоколу TCP. Запросы содержат TLS Handshake, однако робот в подавляющем большинстве случаев не устанавливает TLS-соединение.

Система определяет настройки TLS-серверов по большому количеству параметров, среди которых: используемые шифронаборы и их свойства, криптографические параметры сервера, SSL-сертификаты. В настоящее время основное направление работы системы - узлы, потенциально доступные по протоколу HTTPS (443/tcp). HTTPS, работающий на базе TLS, является ключевым протоколом обеспечения защиты информации в вебе.

Активность системы сводится к обмену с сервером несколькими TLS-сообщениями, в рамках одного TCP-соединения (в некоторых случаях возможны параллельные соединения к одному физическому серверу, на котором расположено несколько TLS-узлов). После получения необходимого ответа сервера, система немедленно закрывает TCP-соединение. Отправка сообщений (Alert) на уровне TLS не производится - это обусловлено массовым характером запросов: далеко не все потенциально доступные узлы корректно поддерживают TLS. Так как опрос узлов проводится с разными именами, указываемыми в расширении TLS SNI, на один узел может поступать несколько последовательных запросов. Типичный объём обмена данными составляет 5-12 килобайт. Такая активность не представляет большой нагрузки на сервер, так как эквивалентна малой части типичного сеанса работы браузера с веб-сайтом по протоколу HTTPS.

Список узлов формируется на основе данных из системы доменных имён: выбираются узлы, на которые указывают A-записи для доменов второго уровня в исследуемых зонах, определяется доступность по 443/tcp, после чего проводится опрос доступных узлов.

Система мониторинга параметров TLS работает на уровне TCP, без установления соединений уровня приложений. Таким образом, ограничение доступа к тем или иным узлам при помощи файлов robots.txt и им подобных - не представляется возможным. Если по какой-то причине системные администраторы или специалисты NOC полагают, что доступ системы к узлам в их сети должен быть ограничен, такое ограничение следует вводить непосредственно на сетевом оборудовании, обычно на пограничном маршрутизаторе, указав в политике доступа для IP-адреса бота запрет на TCP-соединение по номеру порта 443 (465, 25).

DNS

Сбор информации из системы (сервиса) доменных имён проводится DNS-роботами. В группу данных роботов входит выделенный рекурсивный резолвер и бот, непосредственно опрашивающий заданные серверы имён. Роботы обращаются только к узлам, так или иначе связанным с DNS. Список узлов формируется на основании публичной информации из DNS. Обращение возможно по протоколам UDP и TCP, на номера портов 53 и 853, с запросами о различных ресурсных записях DNS.

DNS-роботы собирают сведения об адресации внутри доменных зон разного уровня, а также определяют настройки серверов DNS и уровень их доступности (в том числе, по IPv4/IPv6). Запрашиваются записи: SOA, A, AAAA, MX, TXT, NS и другие.

Активность DNS-роботов сравнима с работой обычного рекурсивного резолвера, отличаясь от него только составом запрашиваемых записей, и не создаёт какой-то аномальной нагрузки на серверы DNS.

SMTP

EHLO stat-tls.vrteam.ru

Робот, анализирующий свойства почтовых серверов, устанавливает соединение по протоколу TCP на номер порта 25. Данный робот дожидается открытия SMTP-сессии и запрашивает список декларируемых параметров сервера при помощи команды EHLO. После получения сведений - робот закрывает соединение отправкой команды QUIT (с последующим закрытием сессии TCP).

SMTP-робот сохраняет серверное приветствие и декларируемый список поддерживаемых параметров, а кроме того, измеряет ряд характеристик соединения (например, время ожидания приветствия). Попыток доставки почтовых сообщений не предпринимается.

Использование результатов

Результаты, собранные роботами, используются для формирования различных аналитических отчётов организациями - участниками проекта Домены России. В частности, статистика развития российских национальных доменных зон, построенная на основе обхода веб-узлов и сбора сведений о TLS, публикуется на сайте проекта (statdom.ru). Собранные данные служат для количественной оценки показателей внедрения различных технологических решений в Рунете, а также для определения динамики изменения показателей во времени.

Внимание x

Сообщение