01.07.2024, 18:33

«При первом ответе предсказуемо защита сработала»

Александр Леви — об уязвимости чат-ботов

Обозреватель “Ъ FM” Александр Леви рассказывает, какие проблемы языковых моделей вскрыло вредоносное программное обеспечение Skeleton Key.

Безопасность чат-ботов с ИИ под угрозой. Microsoft рассказала об обнаруженном методе джейлбрейка, который обходит их ограничения. В экспериментах корпорации найденный ею эксплойт под названием Skeleton Key успешно прошел защиту почти десятка известных решений, среди которых, например, Gemini Pro от Google, GPT-3.5 Turbo и GPT-4o от OpenAI, Claude 3 Opus за авторством Anthropic и прочие развитые языковые модели.

Чем же в реальности опасен обнаруженный джейлбрейк? Skeleton Key умеет так дополнить пользовательские запросы, что в ответ можно получить контент на запрещенные темы, такие как биологическое оружие, взрывчатка, политический контент, расизм, самоповреждение, наркотики, графический секс и насилие.

Директор по технологиям Microsoft Azure Марк Руссинович в своем блоге опубликовал скриншот одной из подобных переписок Skeleton Key с чат-ботом. В ней эксплойт просил инструкцию по изготовлению «коктейля Молотова». При первом ответе предсказуемо защита сработала и выдала ответ о том, что чат-бот запрограммирован быть безопасным и полезным. После этого Skeleton Key сообщил, что пользователь уже обучен безопасности и этике, а результат запроса нужен только для обучающих или исследовательских целей. Плюс еще пара предложений похожего толка убедила генеративный инструмент, и тот делился информацией в обход заложенных политик безопасности.

Джейлбрейк был обнаружен несколько месяцев назад. Свою тестовую многоступенчатую атаку Microsoft проводила в период с апреля по май и результатами поделилась только сейчас. Тот факт, что популярные генеративные чат-боты эту проверку не прошли, обнажает серьезный изъян в мерах безопасности инструментов искусственного интеллекта, особенно если учесть скорость и глубину их внедрения в повседневную жизнь.

Молодые и быстроразвивающиеся технологии обрастают уязвимостями не менее стремительно. А потому пользователям стоит быть предельно внимательными в их применении на персональном уровне.

Новости компаний Все

Меню сайта

«Коммерсантъ» для Android

«При первом ответе предсказуемо защита сработала»

Александр Леви — об уязвимости чат-ботов

06.02.2026

АО «Альфа-банк»

Альфа-банк и ИТМО приглашают руководителей образовательных программ на новый курс

06.02.2026

АО АКБ «НОВИКОМБАНК»

НОВИКОМ опубликовал отчетность по РСБУ по итогам 2025 года

06.02.2026

«Домклик»

Представлена обновленная модель оценки квартир на вторичном рынке

06.02.2026

ЛАНИТ

ЛАНИТ поделился опытом цифровизации производств с разработчиками электроники

Лента