Сканер Microsoft для обнаружения бэкдоров в LLM

Microsoft разработала легковесный сканер для выявления бэкдоров в больших языковых моделях (LLM) с открытыми весами. Узнайте, как инструмент повышает безопасность ИИ-систем.

Microsoft представила сканер для обнаружения бэкдоров в открытых LLM

Компания Microsoft объявила о разработке легковесного сканера, предназначенного для обнаружения бэкдоров в больших языковых моделях (LLM) с открытыми весами. Инструмент, представленный в среду командой AI Security компании, использует три наблюдаемых сигнала для надежного выявления вредоносных бэкдоров при низком уровне ложных срабатываний.

Технические детали

Сканер ориентирован на LLM с открытыми весами — модели, чьи веса общедоступны, что делает их уязвимыми для вмешательства злоумышленников. Бэкдоры в таких моделях могут быть скрытно внедрены для манипуляции выводами, выполнения несанкционированных действий или утечки данных при активации определенных триггеров. Решение Microsoft анализирует поведенческие, структурные и статистические аномалии для выявления потенциальных угроз без необходимости доступа к обучающим данным модели или изменениям её архитектуры.

Основные функции сканера включают:

Анализ поведения: Обнаруживает отклонения в ответах модели на предопределенные входные данные.
Структурная инспекция: Выявляет аномалии в распределении весов или конфигурации слоев.
Статистические аномалии: Фиксирует необычные паттерны в вероятностях токенов или механизмах внимания.

Инструмент разработан как легковесный, что обеспечивает минимальные вычислительные затраты при сохранении высокой точности обнаружения.

Анализ влияния

Появление этого сканера устраняет критический пробел в безопасности ИИ, особенно для предприятий, внедряющих LLM с открытыми весами в чувствительных средах. Модели с бэкдорами представляют значительные риски, включая:

Утечку данных: Несанкционированный доступ к конфиденциальной или проприетарной информации.
Манипуляцию моделью: Враждебный контроль над выводами ИИ, ведущий к дезинформации или вредоносным действиям.
Атаки на цепочку поставок: Компрометация моделей, распространяемых через публичные репозитории, что влияет на downstream-приложения.

Предоставляя масштабируемый механизм обнаружения, Microsoft стремится снизить эти риски и повысить целостность развертывания ИИ.

Microsoft представила сканер для обнаружения бэкдоров в открытых LLM с открытыми весами

Microsoft представила сканер для обнаружения бэкдоров в открытых LLM

Технические детали

Анализ влияния

Рекомендации для команд безопасности