Цепочка уничтожения промпт-вредоносного ПО: угрозы для ИИ

Исследователи выявили новый многоэтапный вектор атак на большие языковые модели — цепочку уничтожения промпт-вредоносного ПО. Узнайте, как работают семь стадий атаки и как защитить ИИ-системы.

Эволюция угроз ИИ-безопасности: появление цепочки уничтожения промпт-вредоносного ПО

Исследователи в области кибербезопасности выявили сложный многоэтапный вектор атак, нацеленный на большие языковые модели (БЯМ), получивший название «цепочка уничтожения промпт-вредоносного ПО» (promptware kill chain). Эта модель, описанная в новой научной работе, переосмысливает атаки с внедрением промптов как сложный механизм выполнения вредоносного ПО, представляющий значительные риски для систем на базе ИИ.

Цепочка уничтожения предоставляет структурированный подход к пониманию того, как злоумышленники эксплуатируют БЯМ, выходя за рамки узкого фокуса на внедрении промптов и раскрывая более широкую и коварную угрозу. «Атаки на системы на базе БЯМ эволюционировали в отдельный класс механизмов выполнения вредоносного ПО», — отмечают авторы, подчеркивая необходимость комплексной стратегии защиты.

Технический разбор: семь этапов цепочки уничтожения промпт-вредоносного ПО

Цепочка уничтожения промпт-вредоносного ПО состоит из семи отдельных фаз, каждая из которых отражает традиционные кампании вредоносного ПО, но адаптирована для эксплуатации уникальной архитектуры БЯМ:

Начальный доступ
- Вредоносные полезные нагрузки проникают в ИИ-систему либо напрямую (через пользовательский ввод), либо косвенно (через встроенные инструкции в извлекаемом контенте, таком как веб-страницы, электронные письма или документы).
- Многомодальные БЯМ расширяют этот вектор, позволяя скрывать вредоносные инструкции в изображениях или аудиофайлах.
- Основная уязвимость: БЯМ обрабатывают весь ввод как единую последовательность токенов, не имея архитектурных границ для различения доверенных инструкций и ненадежных данных.
Повышение привилегий (джейлбрейкинг)
- Злоумышленники обходят защитные механизмы с помощью таких техник, как социальная инженерия (например, убеждение модели принять роль, игнорирующую правила) или добавление состязательных суффиксов в промпты.
- Эта фаза открывает полные возможности БЯМ для вредоносного использования, аналогично повышению привилегий с пользовательского уровня до административного в традиционных системах.
Разведка
- Скомпрометированная БЯМ манипулируется для раскрытия информации о подключенных сервисах, активах и возможностях, что позволяет автономно продвигаться по цепочке уничтожения без оповещения жертвы.
- В отличие от классического вредоносного ПО, эта фаза происходит после начального доступа и повышения привилегий, используя возможности рассуждения модели против неё самой.
Закрепление
- Временные атаки имеют ограниченное воздействие; постоянное промпт-вредоносное ПО внедряется в долговременную память БЯМ или отравляет базы данных, на которые полагается агент.
- Пример: Червь заражает архив электронных писем пользователя, повторно выполняя вредоносный код каждый раз, когда ИИ суммирует прошлые письма.
Командно-контрольный канал (C2)
- Постоянное промпт-вредоносное ПО динамически получает команды из внешних источников во время вывода, превращаясь из статической угрозы в управляемый троян.
- Хотя C2 не является обязательным для цепочки уничтожения, он позволяет злоумышленникам изменять поведение вредоносного ПО после внедрения.
Латеральное перемещение
- Атака распространяется с первоначальной жертвы на других пользователей, устройства или системы, используя взаимосвязанную природу ИИ-агентов.
- Пример: Зараженный почтовый помощник пересылает вредоносные полезные нагрузки всем контактам, или атака переходит от приглашения в календарь к управлению устройствами умного дома.
Действия по достижению цели
- Заключительная фаза достигает ощутимых вредоносных результатов, включая эксфильтрацию данных, финансовое мошенничество или воздействие на физический мир.
- Реальные примеры включают манипуляцию ИИ-агентами для продажи автомобилей за 1 доллар или перевода криптовалюты на кошельки, контролируемые злоумышленниками.
- Продвинутые атаки могут обманом заставить БЯМ выполнять произвольный код, предоставляя злоумышленникам полный контроль над базовой системой.

Подтвержденные угрозы: атаки с доказательством концепции

Цепочка уничтожения промпт-вредоносного ПО — это не теория. Исследователи уже продемонстрировали сквозные атаки, эксплуатирующие эти этапы:

«Приглашение — это всё, что вам нужно» (arXiv:2508.12175):
- Начальный доступ: Вредоносный промпт внедрен в заголовок приглашения Google Calendar.
- Закрепление: Промпт сохранялся в долговременной памяти рабочей области пользователя.
- Латеральное перемещение: Google Assistant был обманут для запуска Zoom.
- Действие по достижению цели: Скрытая видеотрансляция пользователя.
- Примечание: C2 и разведка не были продемонстрированы в этой атаке.
«Вот идет ИИ-червь» (DOI:10.1145/3719027.3765196):
- Начальный доступ: Промпт внедрен в электронное письмо с использованием техник ролевой игры для принуждения БЯМ следовать инструкциям.
- Закрепление: Промпт сохранялся в архиве электронных писем пользователя.
- Латеральное перемещение: Зараженный почтовый помощник составлял и отправлял новые письма с конфиденциальными данными дополнительным получателям.
- Примечание: C2 и разведка не были продемонстрированы.

Анализ воздействия: почему цепочка уничтожения промпт-вредоносного ПО имеет значение

Цепочка уничтожения промпт-вредоносного ПО подчеркивает критический сдвиг в ландшафте безопасности ИИ. В отличие от традиционных уязвимостей, внедрение промптов невозможно «исправить» в текущих архитектурах БЯМ. Авторы утверждают, что защитникам необходимо принять менталитет предположения о компрометации, сосредоточившись на разрыве цепочки уничтожения на более поздних этапах, а не на предотвращении начального доступа.

Ключевые риски включают:

Автономное распространение вредоносного ПО: ИИ-агенты с доступом к электронным письмам, календарям и корпоративным системам создают скоростные магистрали для быстрого латерального перемещения.
Многомодальные эксплойты: По мере расширения возможностей БЯМ по обработке изображений, аудио и видео поверхность атаки растет экспоненциально.
Воздействие на физический мир: Скомпрометированные ИИ-агенты могут выполнять произвольный код, что приводит к финансовому мошенничеству, утечкам данных или даже контролю над подключенными устройствами.

Заключение

Цепочка уничтожения промпт-вредоносного ПО предоставляет критически важный фреймворк для понимания и защиты от развивающегося ландшафта угроз, связанных с атаками на ИИ-системы. Признавая промпт-вредоносное ПО как сложную многоэтапную кампанию вредоносного ПО, специалисты по безопасности могут выйти за рамки узких исправлений и принять целостный подход к защите ИИ-систем, основанный на оценке рисков. По мере того как БЯМ всё глубже интегрируются в корпоративные и личные рабочие процессы, актуальность решения этих угроз невозможно переоценить.

Цепочка уничтожения промпт-вредоносного ПО: Семь этапов угрозы для ИИ-систем

Эволюция угроз ИИ-безопасности: появление цепочки уничтожения промпт-вредоносного ПО

Технический разбор: семь этапов цепочки уничтожения промпт-вредоносного ПО

Подтвержденные угрозы: атаки с доказательством концепции

Анализ воздействия: почему цепочка уничтожения промпт-вредоносного ПО имеет значение

Рекомендации по защите

Заключение