VK указала роботу от OpenAI не собирать данные с «Дзена»
Контентная платформа «Дзен» (принадлежит VK; MOEX: VKCO) указала, что роботу GPTBot от OpenAI (разработчик ChatGPT и GPT-4) запрещено обходить страницы сайта dzen.ru для сбора данных. «Ъ» обнаружил соответствующую директиву в файле robots.txt, предназначенном для программ по автоматическому сбору информации с сайтов. В пресс-службе VK объяснили «Ъ», что заблокировали GPTBot для снижения нагрузки на серверы «Дзена».
«Рекомендательная система "Дзена" — одна из самых больших в стране. Высоконагруженные сервисы работают беспрерывно и обрабатывают более 150 тысяч запросов в секунду. Решение не включать GPTBot от OpenAI в файл принято для грамотного использования технического ресурса, чтобы не создавать дополнительную нагрузку. В "Дзене" регулярно создаются миллионы новых публикаций: как в текстах, так и в видеоформате, — мы направляем ресурсы на то, чтобы обеспечить качественный опыт нашим пользователям и авторам»,— сообщили в VK.
Файл robots.txt носит рекомендательный характер: технически ничто не запрещает роботам игнорировать прописанные в нем директивы. В 2019 году проект Internet Archive, занимающийся созданием архивных копий веб-сайтов, сообщил, что не будет следовать установкам из файла, однако к 2022 году отменил решение.
GPTBot используется для сбора информации, которая впоследствии используется для создания нейросетевых продуктов OpenAI. Компания не предоставляет доступ к ним в России и заблокировала доступ к сайту для пользователей из РФ. Подобные роботы-«обходчики» есть «Яндекса» и Google, с помощью которых поисковики поддерживают актуальные данные о сайтах. Обе компании также развивают свои нейросетевые продукты. При этом они позволяют администраторам сайтов отказывать в обслуживании роботов, созданных для нейросетей (YandexAdditional и Google-Extended, соответственно), но при этом не закрывать сайт от сборщиков информации для поисковой выдачи. В декабре 2023 года подведомственный Роскомнадзору Главный радиочастотный центр рекомендовал хостинг-провайдерам заблокировать обращения GPTBot.
Подробнее — в материале «Ъ» «И за бот ее бросает».