Угрозы побочных каналов в больших языковых моделях (LLM)

Исследователи обнаружили критические уязвимости в больших языковых моделях (LLM), позволяющие извлекать конфиденциальные данные через побочные каналы, несмотря на шифрование.

Исследователи выявили критические уязвимости в LLM через побочные каналы

Специалисты по кибербезопасности обнаружили несколько векторов атак по побочным каналам, направленных на большие языковые модели (LLM). Эти атаки позволяют злоумышленникам получать доступ к пользовательским запросам, темам бесед и даже персональным данным (PII), несмотря на использование шифрованных каналов связи. Три недавно опубликованные научные работы подробно описывают новые методы, эксплуатирующие временные характеристики, шаблоны спекулятивного декодирования и утечки метаданных в системах вывода LLM.

1. Удаленные атаки по времени на эффективный вывод LLM

Группа исследователей продемонстрировала, как оптимизации производительности в LLM — такие как спекулятивное семплирование и параллельное декодирование — создают зависимые от данных временные вариации, которые могут быть использованы удаленно. Анализируя зашифрованный сетевой трафик между пользователем и сервисом LLM, злоумышленники могут определить:

Темы бесед (например, медицинские консультации или помощь в программировании) с точностью более 90% на открытых системах;
Конкретные сообщения или язык пользователя на промышленных платформах, таких как ChatGPT от OpenAI и Claude от Anthropic;
Восстановление PII (например, номера телефонов, данные кредитных карт) посредством активных атак усиления на открытых моделях.

Атака требует лишь черного ящика доступа, что делает её осуществимой для злоумышленников, отслеживающих сетевой трафик. Потенциальные меры защиты включают формирование трафика и методы вывода с постоянным временем, хотя это может негативно сказаться на производительности.

2. Утечки через побочные каналы в спекулятивном декодировании LLM

Спекулятивное декодирование — метод, используемый для улучшения пропускной способности и снижения задержек в LLM, — было обнаружено как источник утечек конфиденциальной информации через зависимые от ввода шаблоны спекуляции. Исследователи показали, что мониторинг количества токенов за итерацию или размера пакетов позволяет злоумышленникам:

Идентифицировать пользовательские запросы из набора 50 подсказок с точностью более 75% для четырех схем спекулятивного декодирования (REST, LADE, BiLD, EAGLE);
Извлекать содержимое конфиденциальных хранилищ данных со скоростью более 25 токенов в секунду.

Даже при высоких значениях температуры (например, 1.0) точность оставалась значительно выше случайных базовых показателей. Предложенные меры смягчения включают дополнение пакетов и агрегацию токенов по итерациям, хотя это влечет за собой компромиссы в эффективности.

3. Whisper Leak: Вывод запросов на основе метаданных

Атака Whisper Leak эксплуатирует шаблоны размера пакетов и временные характеристики в зашифрованном трафике LLM для классификации тем пользовательских запросов. При оценке 28 популярных LLM от ведущих провайдеров атака показала:

Почти идеальную классификацию (часто >98% AUPRC) для чувствительных тем, таких как "отмывание денег";
Высокую точность даже при экстремальном дисбалансе классов (соотношение шума к целевым данным 10 000:1);
Восстановление 5-20% целевых бесед в некоторых моделях.

Эта атака представляет риск для пользователей, находящихся под сетевым наблюдением со стороны интернет-провайдеров, государственных структур или локальных злоумышленников. Меры защиты, такие как случайное дополнение, пакетирование токенов и инъекция пакетов, снижают эффективность атаки, но не устраняют угрозу полностью.

Влияние и рекомендации

Эти атаки по побочным каналам подчеркивают растущий риск, связанный с использованием LLM в здравоохранении, юридических услугах и конфиденциальных коммуникациях. Основные выводы для специалистов по безопасности:

Мониторить шаблоны зашифрованного трафика на предмет аномальных временных вариаций или изменений размера пакетов;
Оценивать реализации спекулятивного декодирования на предмет потенциальных утечек информации;
Внедрять формирование трафика (например, ответы с постоянным временем) там, где это возможно;
Использовать методы затемнения метаданных (например, дополнение, пакетирование) для снижения утечек.

Хотя некоторые провайдеры уже начали внедрять контрмеры, исследования подчеркивают необходимость отраслевого сотрудничества для решения проблемы утечек метаданных в системах ИИ.

Новые угрозы по побочным каналам атакуют большие языковые модели (LLM)

Исследователи выявили критические уязвимости в LLM через побочные каналы

1. Удаленные атаки по времени на эффективный вывод LLM

2. Утечки через побочные каналы в спекулятивном декодировании LLM

3. Whisper Leak: Вывод запросов на основе метаданных

Влияние и рекомендации