По интернету пройдутся с нейросетью
Роскомнадзор использует ИИ для блокировок сайтов
В этом году Роскомнадзор собирается начать вести реестр запрещенной информации с применением искусственного интеллекта (ИИ). Технология будет работать на базе системы, через которую уже анализируются и классифицируются тексты в интернете. Интеграция ИИ-технологий призвана сократить издержки и устанавливать «неочевидные связи». Через два года ведомство рассчитывает использовать такие технологии и для ведения реестра операторов персональных данных. Но эту задачу, полагают эксперты, автоматизировать будет сложнее.
Фото: Анатолий Жданов, Коммерсантъ
“Ъ” ознакомился с новой версией паспорта программы цифровой трансформации Роскомнадзора. Согласно документу, ведомство планирует с 2024 года формировать и вести реестр заблокированных сайтов с применением ИИ. Об этом говорится в описании работ, касающихся единой информационной системы Роскомнадзора (ЕИС, также объединяет реестры лицензий, СМИ, разрешений) и информационной системы мониторинга интернет-ресурсов (ИС МИР). В 2023 году, исходя из данных паспорта, реестр запрещенных сайтов велся без применения ИИ.
ИС МИР, следует из тендерной документации от 2021 года, предназначена для отслеживания текстов с запрещенной информацией, их классификации по характеру (нейтральное, негативное или позитивное мнение автора) и поиска перепечаток. В прошлом году подведомственный Роскомнадзору ФГУП «Главный радиочастотный центр» объявлял тендер на интеграцию ИС МИР с другими системами, в том числе с ИС «Окулус», предназначенной для поиска изображений и символов (см. “Ъ” от 30 сентября 2023 года).
В 2023 году, говорится в документе, Роскомнадзор выявлял незаконный контент в интернете спустя три часа после публикации. В 2024 году показатель планируется сократить до двух часов, а по итогам 2026 года — до одного.
Также служба планирует повысить эффективность работы: в частности, снизить показатель ошибочно выявленных признаков нарушений в СМИ с 20% в 2023 году до 10% в 2026 году. В Роскомнадзоре не ответили на запрос “Ъ”.
Использование ИИ, а не заданных алгоритмов обработки текстов позволит сократить объем человеческих ресурсов для обслуживания системы, считает менеджер продуктов Innostage Евгений Сурков. Для этого нужно обучить ИИ-модель на выборке материалов верифицированной и контролируемой оператором системы. Затем модель может работать с минимальным участием человека, уточнил он.
ИИ позволит «выявлять сложные контекстуальные связи между текстовыми фрагментами, находить скрытые закономерности и ассоциации», отмечает менеджер продукта Just AI Алексей Борщов. Технология может использоваться и для структурирования баз данных: «Но типичные примеры назвать сложно: обычно база знаний не формируется с помощью ИИ, а, скорее, интегрируется с ним».
Глава департамента расследований T.Hunter Игорь Бедеров полагает, что «даже через два года доля выявляемого запрещенного контента, который потребует дополнительной модерации человеком, вряд ли будет ниже 60%».
Оценить же извне скорость работы системы, по его словам, затруднительно — аналитики исходят из сроков собственно блокировки контента: «В 2022 году блокировка отдельных сайтов с запрещенной информацией занимала до 50 дней».
В 2026 году, согласно паспорту, Роскомнадзор также намерен наполнять с помощью ИИ реестр операторов персональных данных. Аналитик профильного Telegram-канала abloud62 Алексей Бойко допускает, что выявлять операторов персональных данных в автоматическом режиме можно по открытой информации: «Но есть риск, что на первых порах такой ИИ станет выдавать ложные обнаружения».
Выявление операторов сопряжено с трудностями, подчеркивает гендиректор разработчика систем анализа данных «Социальная лаборатория» Наталия Тылевич: «Даже если оператор опубликовал юридические документы в виде, удобном для автоматического извлечения, их "чтение" требует глубокого семантического анализа. А ведь, например, интернет-магазин может отображать их только в процессе регистрации пользователя или оформления заказа». В последнем случае, уточняет она, создателям решений придется найти способ автоматической регистрации на сайтах, администраторы которых обычно блокируют подобные действия.