Бот с вами
Как роботы собирают данные о пользователях в сети и опасно ли это
Развитие нейросетей заставляет глобальных разработчиков искать новые источники данных для обучения алгоритмов, в том числе в российском сегменте сети. Российские хостинг-провайдеры уже начали ограничивать доступ для ботов, собирающих данные, от Google, Apple и Microsoft. Однако проблему такого сбора информации эти ограничения полностью не решают. «Ъ-Review» разбирался, как устроен мир ботов, какие из них действительно представляют опасность для компаний и пользователей и как от этого защититься.
Нашествие машин
Спорных прецедентов с работой ботов по всему миру было зафиксировано уже немало. Так, в 2018 году компания Cambridge Analytica использовала приложение с ИИ-ботом This Is Your Digital Life для сбора информации из соцсетей. Эти данные помогли не только создать персонализированные рекламные кампании, но и манипулировать политическими предпочтениями избирателей в ходе президентской кампании в США.
В 2021 году в свободном доступе оказались данные 533 млн пользователей Facebook (принадлежит Meta, признанной в России экстремистской организацией и запрещенной), собранные ботами. В том числе утекли и данные почти 10 млн россиян: номера телефонов, имена, даты рождения и даже адреса электронной почты. В этом году с помощью бота Shodan хакерам удалось украсть секретные документы с телефона капитана BBC США об американских беспилотниках.
По словам директора по инновациям финтех-разработчика и интегратора Fork-Tech Владислава Лаптева, в 2023 году Shodan Bot активно сканировал российские компании, выявляя уязвимости в их инфраструктуре. Их использовали для последующих атак, включая распространение программ-вымогателей. «Также в 2023 году GPTBot от OpenAI начал собирать данные с российских сайтов, в том числе пользовательский контент и информацию, связанную с бизнес-процессами. Участились и фишинговые атаки, основанные на данных, собранных ботами типа ShadowServer Bot»,— отмечает он. Также в прошлом году был зафиксирован рост активности ботов, собирающих данные через Telegram и другие мессенджеры, где пользователи делятся личной информацией в группах и каналах, добавляет замдиректора Центра компетенций НТИ «Технологии доверенного взаимодействия» на базе Томского госуниверситета систем управления Руслан Пермяков. Для кибершпионажа используются и боты, которые «профилируют» пользователей (создают их портрет) в рамках рекламной идентификации, добавил директор департамента расследований T.Hunter Игорь Бедеров.
Знакомьтесь, ваш бот
Ботами разработчики называют программы, нужные для автоматизации каких-либо действий. Программисты предлагают разные классификации ботов. Например, ведущий эксперт по сетевым угрозам компании «Код безопасности» Константин Горбунов выделяет чат-боты, спам-боты и DDoS-боты, используемые для атак на сайты. Существуют также боты—cканеры уязвимостей, ищущие пробелы в системах сервисов, продолжает аналитик сервиса проактивного мониторинга внешних цифровых угроз Jet CSIRT «Инфосистемы Джет» Павел Абакумов.
Есть боты-парсеры для сбора информации. Среди них — копирующие на веб-страницах имена, номера телефонов и адреса людей веб-скрепинг-боты, например Scrapy и Beautiful Soup. Также есть боты—парсеры социальных медиа, заточенные на сбор данных из соцсетей, к примеру Twitterbot. Данные о конфигурации IoT-устройств может собирать бот ZoomEye. Распространены и боты, копирующие сайты целиком.
По словам Павла Абакумова, отдельная категория — это боты для фишинга, создающие ложные копии сайтов для кражи учетных данных, которые, например, под видом службы поддержки соцсети отправляют сообщения о «нарушениях» пользователя и просят перейти по ложной ссылке для верификации.
Также есть боты для анализа активности на конкретной странице, которые собирают метаданные о действиях пользователей на платформах, рассказывает Руслан Пермяков. Эти боты работают на сайтах Google Analytics Bot и Facebook Pixel (принадлежит Meta, которая признана в России экстремистской организацией и запрещена).
Отдельная категория — это ИИ-боты для обучения нейросетей от крупных корпораций. Речь о семействах поисковых ботов Googlebot от Google, Bing от Microsoft, Apple Bot от Apple, GPTBot от OpenAI, поясняет руководитель аналитического отдела Servicepipe Антон Чемякин. По словам менеджера продукта Qrator Labs Георгия Тарасова, боты для ИИ постоянно обходят разные индексированные сайты и «собирают оттуда буквально все»: тексты, картинки, видео, чтобы нейросети не теряли актуальность. Как правило, такие боты делают все открыто и «представляются», когда «приходят на сервис». Владельцы сайтов могут легко запретить им доступ, проставив ограничения.
Среда обитания
Технически большинство ботов работают по одному принципу — автоматически отправляют HTTP-запросы, как те, что делает человек через браузер, объясняет Антон Чемякин. Сайты в ответ на запросы возвращают информацию, например ответы с карточками товаров онлайн-магазина. Далее бот достает из полученных HTTP-ответов нужные данные, структурирует их и складывает в базу. Многие боты незаметно интегрируются в трафик, добавляют в Fork-Tech.
Они используют зашифрованные каналы передачи данных и отправляют информацию на зарубежные серверы.
Получившиеся дата-сеты могут быть проданы, использованы для донастройки поисковых систем, конкурентного или иного анализа, обучения ИИ, говорят эксперты. Боты, собирающие информацию о пользователях, могут запускаться из любой точки планеты. Технически все выглядит так: программист, к примеру, физически находится на Кипре или в Нью-Йорке и пишет там программу для бота, объясняет Антон Чемякин. Далее через интернет арендует мощности у одного или нескольких хостинг-провайдеров. Программа развертывается на мощностях дата-центров, которые также могут располагаться в любой точке мира.
Однако боты могут создавать профили пользователей для рекламы, проводить компьютерные атаки, агрегировать базы данных утечек и заниматься кибершпионажем, предупреждают специалисты по ИБ. По мнению руководителя направления кибербезопасности RTM Group Артема Бруданина, наиболее опасны боты, отслеживающие устройства, подключенные к сети. Shodan Bot и ShadowServer Bot, по словам Владислава Лаптева, активно сканируют сети на наличие уязвимостей: открытых портов, устаревших версий программ или плохо защищенных баз данных. Эти боты часто нацеливаются на API (программный интерфейс) и облачные хранилища.
Программы Googlebot и Bingbot предназначены для индексации сайтов, но при слабой настройке доступа могут случайно или намеренно агрегировать информацию о клиентах или элементы интерфейсов платежных систем.
Руководитель группы разработки защиты от DDoS на уровне веб-приложений в DDoS-Guard Казбек Мамакаев отмечает, что и чат-боты, и софт для общения с ними могут собирать слепок устройства, на которое они установлены. Такой софт может собрать информацию, например, о местоположении гаджета, отмечает эксперт.
Бок о бок с роботами
Специалисты по кибербезопасности говорят, что для защиты от ботов как компаний, так и простых пользователей существует несколько стандартных методов. Ботов можно нейтрализовать специальными анти-бот-решениями, например Cloudflare (программа защиты от DdoS-атак), говорит Игорь Бедеров. Также можно просить у посетителей сайтов вводить CAPTCHA (тест для определения робота или человека) и ограничивать число запросов с одного IP-адреса.
Кроме того, спасти от ботов может введение входа в учетную запись по двухфакторной авторизации и подключение сайта к сервисам проверки входящих запросов (WAF), добавляет Константин Горбунов. Сотрудникам компаний также надо запрещать загружать конфиденциальные данные в ИИ-обработчики, корректировщики и подобные сервисы, добавляет Павел Абакумов.
Однако ни один из этих методов не дает полной защиты, признают разработчики. Поэтому владельцам ресурсов надо привыкать жить рядом со все возрастающим числом ботов и при проявлении ими слишком сильной активности учиться оперативно их блокировать.
Этот текст — часть нового проекта ИД «Коммерсантъ», посвященного трендам бизнеса и финансового рынка. Еще больше лонгридов с анализом ключевых отраслей российской экономики, экспертных интервью и авторских колонок — на странице Review.