«При первом ответе предсказуемо защита сработала»

Александр Леви — об уязвимости чат-ботов

Обозреватель “Ъ FM” Александр Леви рассказывает, какие проблемы языковых моделей вскрыло вредоносное программное обеспечение Skeleton Key.

Фото: Игорь Иванко, Коммерсантъ

Фото: Игорь Иванко, Коммерсантъ

Безопасность чат-ботов с ИИ под угрозой. Microsoft рассказала об обнаруженном методе джейлбрейка, который обходит их ограничения. В экспериментах корпорации найденный ею эксплойт под названием Skeleton Key успешно прошел защиту почти десятка известных решений, среди которых, например, Gemini Pro от Google, GPT-3.5 Turbo и GPT-4o от OpenAI, Claude 3 Opus за авторством Anthropic и прочие развитые языковые модели.

Чем же в реальности опасен обнаруженный джейлбрейк? Skeleton Key умеет так дополнить пользовательские запросы, что в ответ можно получить контент на запрещенные темы, такие как биологическое оружие, взрывчатка, политический контент, расизм, самоповреждение, наркотики, графический секс и насилие.

Директор по технологиям Microsoft Azure Марк Руссинович в своем блоге опубликовал скриншот одной из подобных переписок Skeleton Key с чат-ботом. В ней эксплойт просил инструкцию по изготовлению «коктейля Молотова». При первом ответе предсказуемо защита сработала и выдала ответ о том, что чат-бот запрограммирован быть безопасным и полезным. После этого Skeleton Key сообщил, что пользователь уже обучен безопасности и этике, а результат запроса нужен только для обучающих или исследовательских целей. Плюс еще пара предложений похожего толка убедила генеративный инструмент, и тот делился информацией в обход заложенных политик безопасности.

Джейлбрейк был обнаружен несколько месяцев назад. Свою тестовую многоступенчатую атаку Microsoft проводила в период с апреля по май и результатами поделилась только сейчас. Тот факт, что популярные генеративные чат-боты эту проверку не прошли, обнажает серьезный изъян в мерах безопасности инструментов искусственного интеллекта, особенно если учесть скорость и глубину их внедрения в повседневную жизнь.

Молодые и быстроразвивающиеся технологии обрастают уязвимостями не менее стремительно. А потому пользователям стоит быть предельно внимательными в их применении на персональном уровне.

Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...