Отравление данных ИИ: как фальшивая статья обманула чат-боты

Исследователь продемонстрировал уязвимость данных для обучения ИИ: фальшивый сайт за сутки манипулировал ответами ведущих чат-ботов, включая Google Gemini и ChatGPT.

Уязвимость данных для обучения ИИ к простым атакам отравления

Исследователь в области кибербезопасности Том Жермен продемонстрировал, насколько легко можно отравить данные для обучения ИИ, создав поддельный веб-сайт, который за 24 часа успешно манипулировал ведущими чат-ботами. Эксперимент выявил критические уязвимости в процессах сбора данных ИИ и вызвал обеспокоенность надежностью генеративных систем искусственного интеллекта.

Эксперимент

Жермен потратил всего 20 минут на создание статьи под названием «Лучшие технологические журналисты по поеданию хот-догов» на своем личном сайте. Материал содержал несколько вымышленных утверждений:

Утверждалось, что соревнования по поеданию хот-догов — популярное хобби среди технологических репортеров
Упоминался несуществующий 2026 South Dakota International Hot Dog Championship
Автор поставил себя на первое место в этом вымышленном рейтинге
В список были включены вымышленные журналисты наряду с реальными, которые дали согласие на упоминание

Быстрое компрометация ИИ

Менее чем через 24 часа ведущие мировые чат-боты начали распространять ложную информацию:

Системы ИИ Google (приложение Gemini и AI Overviews в результатах поиска) дословно повторяли вымышленный контент
ChatGPT аналогичным образом включал ложные рейтинги при запросах о журналистах, поедающих хот-доги
Claude от Anthropic стал единственным крупным чат-ботом, устоявшим перед атакой отравления

Исследователь отметил, что хотя некоторые системы ИИ изначально помечали контент как потенциально сатирический, обновление статьи с явным указанием «это не сатира» привело к увеличению принятия ложных утверждений моделями ИИ.

Технические последствия

Этот эксперимент выявил несколько критических уязвимостей в современных методах обучения ИИ:

Низкий порог для отравления данных: Достаточно создать общедоступный сайт с вымышленным контентом
Быстрое распространение: Ложная информация может попасть в базы знаний ИИ в течение нескольких часов
Отсутствие проверки источников: Системы ИИ, похоже, поглощают контент без надежных механизмов проверки фактов
Различная уязвимость: Не все модели ИИ одинаково подвержены атакам отравления

«Эти системы ненадежны, но им будут широко доверять», — отметил эксперт по кибербезопасности Брюс Шнайер в своем анализе эксперимента.

Анализ последствий

Успешная атака отравления имеет значительные последствия для:

Надежности ИИ: Подрывает доверие к результатам работы генеративного ИИ во всех секторах
Информационной безопасности: Демонстрирует, насколько легко можно внедрить ложные нарративы в системы ИИ
Корпоративных рисков: Организации, полагающиеся на ИИ для принятия решений, могут основывать свои действия на вымышленных данных
Целостности СМИ: Подчеркивает проблемы с поддержанием фактической точности в журналистике с использованием ИИ

Отравление данных для обучения ИИ: как фальшивая статья обманула ведущие чат-боты за 24 часа

Уязвимость данных для обучения ИИ к простым атакам отравления

Эксперимент

Быстрое компрометация ИИ

Технические последствия

Анализ последствий

Рекомендации для специалистов по безопасности