Бот не пройдет
В рунете хотят постепенно ограничить работу иностранных роботов
Роскомнадзор рекомендовал хостинг-провайдерам ограничить сбор информации с российских ресурсов иностранными ботами, в том числе компаний Google, OpenAI и Apple. В ближайшее время провайдеры должны провести анализ рисков на своих сетях и в случае обнаружения применить правила блокировки. Эксперты считают, что со временем рекомендации могут стать обязательными, что приведет к росту конкуренции за трафик.
Фото: Евгений Павленко, Коммерсантъ
“Ъ” ознакомился с письмом, направленным Центром управления связью общего пользования (ЦМУ ССОП) Роскомнадзора компаниям из реестра провайдеров хостинга в конце апреля. Письмо содержит рекомендации по настройке ограничений доступа поисковых ботов к информации на российских сайтах. Собеседник “Ъ” на рынке интернет-провайдеров объясняет, что речь идет об иностранных ботах, в том числе поисковых сервисов Google (Googlebot) или GPTBot компании OpenAI, Apple Bot компании Apple и др.
Роботы, в автоматическом режиме посещающие веб-сайты, используются для их индексации поисковиками, в интернет-рекламе, для сбора данных для обучения нейросетей и т. п. Технически роботы могут мимикрировать под обычных посетителей сайтов, однако легитимные боты отправляют владельцам веб-сайтов идентификатор, позволяющий выявлять его предназначение. Например, «Яндекс» использует YandexBot для индексации сайтов в целом, YandexImages — для индексации изображения для поиска по картинкам и т. д.
Ограничение доступа иностранных ботов к российским сайтам, по мысли авторов письма, необходимо для исключения сбора данных о критических уязвимостях российских ресурсов, индексировании данных россиян и анализа собранной информации, следует из письма. Согласно рекомендациям, провайдерам (в реестре на апрель 428 компаний) «необходимо провести анализ рисков в своей зоне ответственности и при их обнаружении применить правила блокировки сбора сведений поисковыми ботами».
В письме приведен и список идентификаторов (User-agent), по которым можно отличить вредоносных роботов и сканеры уязвимостей (642 идентификатора). “Ъ” обнаружил, что список, разосланный Роскомнадзором провайдерам, совпадает с публично доступным перечнем, опубликованным на сервисе GitHub.
В Роскомнадзоре не ответили “Ъ”.
Получение письма “Ъ” подтверждают в DDoS-Guard и сообщают, что принимают его к сведению. В компании говорят, что на данный момент в «реестр блокировок» Роскомнадзора указанные боты не включены. «Сама процедура блокировок очень формализована»,— говорит ведущий юрист DDoS-Guard Кирилл Приходько.
Собеседник “Ъ” в крупной IT-компании отмечает, что список приведенных в письме идентификаторов «очень большой, и их блокировка может повлиять на стабильность работы IT-систем».
Однако он считает, что компании, которые видят актуальными для себя риски со стороны зарубежных ботов, начнут использовать практику их массовой блокировки.
Гендиректор хостинг-провайдера RUVDS Никита Цаплин допускает, что в перспективе рекомендации Роскомнадзора могут стать требованиями. Он предупреждает, что сбор информации и для чат-ботов, и для пользователя, делающего запрос в адресной строке браузера, осуществляют одни и те же роботы: «Следовательно, организация, которая выполнит рекомендацию, лишит себя возможности индексироваться в Google». Для крупных компаний это серьезный риск, особенно с учетом конкуренции за трафик: если его часть уйдет из Google, то бизнесу придется компенсировать долю «переходов» на сайты через доступные поисковики, говорит господин Цаплин. Собеседник “Ъ” в другом хостинг-провайдере считает, что блокировка особенно отразится на компаниях, работающих в странах СНГ, где позиции Google выше поисковика «Яндекс».