Незваный бот хуже запрещенного
Татьяна Исакова о GPTBot, который подкрался незаметно
В этом ноябре — традиционном месяце распродаж и повышенной нагрузки, в том числе вредоносной, на маркетплейсы — специалисты по кибербезопасности обнаружили в сетях крупных российских компаний необычного «посетителя». По данным Qrator Labs, самым распространенным ботом, посещающим сайты крупных компаний в этот период, стал бот OpenAI — GPTBot, впервые проявив такую активность в России.
GPTBot был запущен в августе для сканирования веб-ресурсов и сбора открытых данных, которые впоследствии американская компания будет использовать для улучшения своей нашумевшей нейросети ChatGPT. И хотя OpenAI закрыла разработки для России (сайт компании в стране недоступен), обходить стороной отечественный сегмент интернета, как выяснилось, не стала. «У ряда крупных интернет-магазинов доля обращений GPTBot в массе всех бот-запросов в ноябре доходила до 90%»,— рассказали в Qrator Labs.
За рубежом с любознательностью GPTBot столкнулись чуть раньше, что повлекло за собой критику продукта и компании за несанкционированный сбор данных: организации и пользователи опасаются обучения нейросети на их контенте. Не помогли даже публичное объявление OpenAI о том, что сайт можно закрыть для GPTBot, и приложенная инструкция, как это сделать. В России бот навредил компаниям скорее через рост и без того высокой нагрузки на серверы и затратами на поддержание работоспособности сайтов. Мне на это пожаловались в одном из маркетплейсов, хотя официально ни Ozon, ни Wildberries, ни «Яндекс Маркет» комментировать ситуацию не стали.
Интерес OpenAI к России объясним нежеланием упускать русскоязычный сегмент интернета, уверены мои собеседники на IT-рынке. Даже если компания не снимет блокировку своих технологий для РФ, ее алгоритмами смогут пользоваться и в других странах, где русскоязычная аудитория, по понятным причинам, за последние полтора года прибавилась.
Использовать российские ресурсы OpenAI может быть удобно и выгодно. Коллективные иски к компании от известных писателей, например Джорджа Р. Р. Мартина и Джона Гришэма, уже наделали много шума. У российских организаций и пользователей шансов хотя бы подать подобную жалобу значительно меньше, не говоря уж о победе в споре. Поэтому отечественные открытые данные, уверяют знакомые IT-специалисты, неуклонно становятся частью глобального датасета.
В дальнейшем это может свести на нет в том числе старания властей ограничить сбор данных западными корпорациями — а именно за это боролись авторы закона о приземлении и сторонники блокировки зарубежных соцсетей из-за их рекомендательных алгоритмов. Как выяснилось, опасаться надо было совсем других продуктов.