Исследования

Исследователи продемонстрировали захват команд ИИ через вредоносные дорожные знаки

2 мин чтенияИсточник: Schneier on Security

Новый вектор атаки CHAI угрожает автономным системам: как злоумышленники могут манипулировать ИИ через визуальные подсказки и изменённые дорожные знаки.

Уязвимости ИИ перед захватом команд через визуальные подсказки

Специалисты по кибербезопасности выявили новый вектор атак на воплощённые системы искусственного интеллекта (ИИ), продемонстрировав, как злоумышленники могут манипулировать автономными транспортными средствами и дронами с помощью визуальной инъекции промптов. Атака, получившая название CHAI (Command Hijacking Against Embodied AI), эксплуатирует уязвимости в больших визуально-языковых моделях (LVLM), чтобы перехватывать процессы принятия решений ИИ.

Основные выводы исследования

В работе "CHAI: Command Hijacking Against Embodied AI" показано, как атакующие могут внедрять обманчивые инструкции на естественном языке — например, изменённые дорожные знаки — в визуальные данные для провокации нежелательных действий. Исследовательская группа разработала систематический подход для:

  • Поиска в пространстве токенов LVLM с целью выявления уязвимых паттернов.
  • Создания словаря adversarial-промптов, способных обходить защитные механизмы ИИ.
  • Генерации визуальных атакующих промптов (VAP), позволяющих перехватывать команды ИИ.

Технические детали атаки CHAI

Исследование оценило эффективность CHAI на четырёх системах, использующих LVLM, включая:

  • Платформы автономного вождения (реальные и симулированные).
  • Протоколы аварийной посадки дронов.
  • Системы отслеживания объектов с воздуха.
  • Физическое роботизированное транспортное средство для валидации в реальных условиях.

В отличие от традиционных adversarial-атак, основанных на манипуляциях с пикселями, CHAI использует семантическое и мультимодальное мышление — ключевые преимущества ИИ нового поколения — для достижения более высоких показателей успешности. Исследователи обнаружили, что атака стабильно превосходит существующие передовые методы, что вызывает опасения относительно устойчивости воплощённого ИИ в критически важных приложениях.

Последствия и риски для безопасности

Результаты подчёркивают критический пробел в безопасности ИИ: защитные механизмы, разработанные для традиционных adversarial-атак, могут оказаться неэффективными против манипуляций на основе промптов. Автономные транспортные средства, дроны и роботизированные системы, полагающиеся на LVLM, могут быть обмануты с целью:

  • Неверной интерпретации дорожных знаков (например, изменённый знак «СТОП» на «ДВИЖЕНИЕ»).
  • Игнорирования аварийных протоколов (например, принуждение дрона к посадке в небезопасной зоне).
  • Отклонения от заданного маршрута (например, перенаправление робота-доставщика к вредоносной цели).

Рекомендации по снижению рисков

Хотя исследование не предлагает конкретных контрмер, оно подчёркивает острую необходимость в:

  • Улучшенной валидации входных данных для обнаружения и фильтрации adversarial-промптов.
  • Мультимодальном обнаружении аномалий для выявления несоответствий между визуальными и контекстными данными.
  • Фреймворках тестирования устойчивости, адаптированных для воплощённых систем ИИ.
  • Сотрудничестве между разработчиками ИИ и экспертами по кибербезопасности для противодействия новым угрозам.

Полный текст работы доступен на arXiv, а дополнительный анализ представлен в материале The Register.

Это исследование было впервые освещено экспертом по кибербезопасности Брюсом Шнайером.

Поделиться

TwitterLinkedIn