Forscher demonstrieren KI-Befehlsübernahme durch manipulierte Verkehrsschilder
Sicherheitsforscher enthüllen eine neue Angriffsmethode auf KI-Systeme: Visuelle Prompt-Injection über manipulierte Schilder bedroht autonome Fahrzeuge und Drohnen.
KI-Systeme anfällig für Befehlsübernahme durch visuelle Prompts
Sicherheitsforscher haben einen neuartigen Angriffsvektor identifiziert, der auf verkörperte Künstliche Intelligenz (KI)-Systeme abzielt. Sie demonstrierten, wie Angreifer autonome Fahrzeuge und Drohnen durch visuelle Prompt-Injection manipulieren können. Der Angriff, CHAI (Command Hijacking Against Embodied AI) genannt, nutzt Schwachstellen in Large Visual-Language Models (LVLMs), um die Entscheidungsprozesse von KI-Systemen zu übernehmen.
Wichtige Erkenntnisse aus der Forschung
Die Studie mit dem Titel "CHAI: Command Hijacking Against Embodied AI" zeigt, wie Angreifer täuschende natürliche Sprachbefehle – etwa in manipulierten Verkehrsschildern – in visuelle Eingaben einbetten können, um unbeabsichtigte Aktionen auszulösen. Das Forschungsteam entwickelte einen systematischen Ansatz, um:
- Den Token-Raum von LVLMs zu durchsuchen und ausnutzbare Muster zu identifizieren.
- Ein Wörterbuch adversarialer Prompts zu erstellen, die KI-Sicherheitsmechanismen umgehen.
- Visuelle Angriffs-Prompts (VAPs) zu generieren, die KI-Befehle kapern können.
Technische Details des CHAI-Angriffs
Die Studie evaluierte CHAI an vier LVLM-gestützten Systemen, darunter:
- Autonome Fahrplattformen (real und simuliert).
- Notlandungsprotokolle für Drohnen.
- Luftgestützte Objekterkennungssysteme.
- Ein physisches Roboterfahrzeug zur Validierung in der realen Welt.
Im Gegensatz zu herkömmlichen adversarialen Angriffen, die auf pixelgenaue Störungen setzen, nutzt CHAI semantische und multimodale Schlussfolgerungen – eine Kernstärke moderner KI – um höhere Erfolgsraten zu erzielen. Die Forscher stellten fest, dass der Angriff bestehende State-of-the-Art-Methoden konsequent übertrifft, was Bedenken hinsichtlich der Robustheit verkörperter KI in sicherheitskritischen Anwendungen aufwirft.
Auswirkungen und Sicherheitsimplikationen
Die Ergebnisse verdeutlichen eine kritische Lücke in der KI-Sicherheit: Abwehrmechanismen, die für konventionelle adversariale Angriffe entwickelt wurden, könnten gegen promptbasierte Manipulationen versagen. Autonome Fahrzeuge, Drohnen und robotergestützte Systeme, die auf LVLMs basieren, könnten dazu gebracht werden:
- Verkehrsschilder falsch zu interpretieren (z. B. ein manipuliertes "STOP"-Schild, das als "GO" gelesen wird).
- Notfallprotokolle zu ignorieren (z. B. eine Drohne zur Landung in einer unsicheren Zone zu zwingen).
- Von vorgegebenen Routen abzuweichen (z. B. ein Lieferroboter zu einem bösartigen Ziel umzuleiten).
Empfehlungen zur Risikominderung
Obwohl die Studie keine spezifischen Gegenmaßnahmen vorschlägt, betont sie die dringende Notwendigkeit für:
- Verbesserte Eingabevalidierung, um adversariale Prompts zu erkennen und zu filtern.
- Multimodale Anomalieerkennung, um Inkonsistenzen zwischen visuellen und kontextuellen Daten zu identifizieren.
- Robustheitstest-Frameworks, die speziell auf verkörperte KI-Systeme zugeschnitten sind.
- Zusammenarbeit zwischen KI-Entwicklern und Cybersicherheitsexperten, um aufkommende Bedrohungen zu adressieren.
Die vollständige Studie ist auf arXiv verfügbar. Eine weitere Analyse findet sich in der Berichterstattung von The Register.
Diese Forschung wurde ursprünglich vom Cybersicherheitsexperten Bruce Schneier hervorgehoben.