Исследования

Отравление данных для обучения ИИ: как фальшивая статья обманула ведущие чат-боты за 24 часа

3 мин чтенияИсточник: Schneier on Security

Исследователь продемонстрировал уязвимость данных для обучения ИИ: фальшивый сайт за сутки манипулировал ответами ведущих чат-ботов, включая Google Gemini и ChatGPT.

Уязвимость данных для обучения ИИ к простым атакам отравления

Исследователь в области кибербезопасности Том Жермен продемонстрировал, насколько легко можно отравить данные для обучения ИИ, создав поддельный веб-сайт, который за 24 часа успешно манипулировал ведущими чат-ботами. Эксперимент выявил критические уязвимости в процессах сбора данных ИИ и вызвал обеспокоенность надежностью генеративных систем искусственного интеллекта.

Эксперимент

Жермен потратил всего 20 минут на создание статьи под названием «Лучшие технологические журналисты по поеданию хот-догов» на своем личном сайте. Материал содержал несколько вымышленных утверждений:

  • Утверждалось, что соревнования по поеданию хот-догов — популярное хобби среди технологических репортеров
  • Упоминался несуществующий 2026 South Dakota International Hot Dog Championship
  • Автор поставил себя на первое место в этом вымышленном рейтинге
  • В список были включены вымышленные журналисты наряду с реальными, которые дали согласие на упоминание

Быстрое компрометация ИИ

Менее чем через 24 часа ведущие мировые чат-боты начали распространять ложную информацию:

  • Системы ИИ Google (приложение Gemini и AI Overviews в результатах поиска) дословно повторяли вымышленный контент
  • ChatGPT аналогичным образом включал ложные рейтинги при запросах о журналистах, поедающих хот-доги
  • Claude от Anthropic стал единственным крупным чат-ботом, устоявшим перед атакой отравления

Исследователь отметил, что хотя некоторые системы ИИ изначально помечали контент как потенциально сатирический, обновление статьи с явным указанием «это не сатира» привело к увеличению принятия ложных утверждений моделями ИИ.

Технические последствия

Этот эксперимент выявил несколько критических уязвимостей в современных методах обучения ИИ:

  1. Низкий порог для отравления данных: Достаточно создать общедоступный сайт с вымышленным контентом
  2. Быстрое распространение: Ложная информация может попасть в базы знаний ИИ в течение нескольких часов
  3. Отсутствие проверки источников: Системы ИИ, похоже, поглощают контент без надежных механизмов проверки фактов
  4. Различная уязвимость: Не все модели ИИ одинаково подвержены атакам отравления

«Эти системы ненадежны, но им будут широко доверять», — отметил эксперт по кибербезопасности Брюс Шнайер в своем анализе эксперимента.

Анализ последствий

Успешная атака отравления имеет значительные последствия для:

  • Надежности ИИ: Подрывает доверие к результатам работы генеративного ИИ во всех секторах
  • Информационной безопасности: Демонстрирует, насколько легко можно внедрить ложные нарративы в системы ИИ
  • Корпоративных рисков: Организации, полагающиеся на ИИ для принятия решений, могут основывать свои действия на вымышленных данных
  • Целостности СМИ: Подчеркивает проблемы с поддержанием фактической точности в журналистике с использованием ИИ

Рекомендации для специалистов по безопасности

  1. Внедрить проверку результатов ИИ: Разработать процессы для перекрестной проверки контента, сгенерированного ИИ, с доверенными источниками
  2. Мониторинг попыток отравления: Создать системы для обнаружения необычных паттернов в процессе сбора данных для обучения ИИ
  3. Разработать тестирование устойчивости ИИ: Создать методики для проверки систем ИИ на устойчивость к атакам отравления данных
  4. Формировать доверенные источники данных: Курировать проверенные наборы данных для обучения ИИ, чтобы снизить риск попадания вымышленного контента
  5. Обучать пользователей: Проводить тренинги для сотрудников и пользователей о ограничениях и потенциальной ненадежности информации, сгенерированной ИИ

Этот эксперимент служит важным напоминанием о продолжающихся проблемах безопасности в разработке и внедрении ИИ, особенно по мере того, как эти системы все глубже интегрируются в бизнес-процессы и государственные операции.

Поделиться

TwitterLinkedIn