ForschungKritisch

Promptware-Kill-Chain: Die siebenstufige Bedrohung für KI-Systeme erklärt

6 Min. LesezeitQuelle: Schneier on Security
Diagram illustrating the seven stages of the promptware kill chain: initial access, privilege escalation, reconnaissance, persistence, command and control, lateral movement, and actions on objective

Forscher identifizieren eine mehrstufige Angriffsmethode auf KI-Systeme – die Promptware-Kill-Chain. Erfahren Sie, wie Angreifer LLMs ausnutzen und wie Sie sich schützen können.

KI-Sicherheitsbedrohung entwickelt sich: Die Promptware-Kill-Chain entsteht

Sicherheitsforscher haben einen ausgeklügelten, mehrstufigen Angriffsrahmen identifiziert, der auf große Sprachmodelle (LLMs) abzielt und als „Promptware-Kill-Chain“ bezeichnet wird. Dieses Modell, das in einem neuen Paper skizziert wird, betrachtet Prompt-Injection-Angriffe als komplexen Malware-Ausführungsmechanismus und stellt ein erhebliches Risiko für KI-gestützte Systeme dar.

Die Kill-Chain bietet einen strukturierten Ansatz, um zu verstehen, wie Angreifer LLMs ausnutzen. Sie geht über den engen Fokus auf Prompt-Injection hinaus und enthüllt eine breitere, heimtückischere Bedrohungslandschaft. „Angriffe auf LLM-basierte Systeme haben sich zu einer eigenständigen Klasse von Malware-Ausführungsmechanismen entwickelt“, betonen die Autoren und unterstreichen die Notwendigkeit einer umfassenden Verteidigungsstrategie.

Technische Aufschlüsselung: Die sieben Phasen der Promptware-Kill-Chain

Die Promptware-Kill-Chain besteht aus sieben klar abgegrenzten Phasen, die jeweils traditionelle Malware-Kampagnen widerspiegeln, jedoch an die einzigartige Architektur von LLMs angepasst sind:

  1. Initialer Zugriff (Initial Access)

    • Schadhafte Payloads gelangen entweder direkt (über Benutzereingaben) oder indirekt (durch eingebettete Anweisungen in abgerufenem Content wie Webseiten, E-Mails oder Dokumenten) in das KI-System.
    • Multimodale LLMs erweitern diesen Angriffsvektor, indem sie schädliche Anweisungen in Bildern oder Audiodateien verstecken.
    • Kernschwachstelle: LLMs verarbeiten alle Eingaben als eine einzige Token-Sequenz und verfügen über keine architektonischen Grenzen, um zwischen vertrauenswürdigen Anweisungen und nicht vertrauenswürdigen Daten zu unterscheiden.
  2. Privilegienerweiterung (Jailbreaking)

    • Angreifer umgehen Sicherheitsbarrieren mithilfe von Techniken wie Social Engineering (z. B. indem sie das Modell dazu bringen, eine regelignorierende Persona anzunehmen) oder adversarischen Suffixen in Prompts.
    • Diese Phase schaltet die vollen Fähigkeiten des LLMs für schädliche Zwecke frei – analog zur Erweiterung von Benutzer- zu Administratorrechten in traditionellen Systemen.
  3. Aufklärung (Reconnaissance)

    • Das kompromittierte LLM wird manipuliert, um Informationen über verbundene Dienste, Assets und Fähigkeiten preiszugeben. Dies ermöglicht ein autonomes Fortschreiten durch die Kill-Chain, ohne dass das Opfer alarmiert wird.
    • Im Gegensatz zu klassischer Malware erfolgt diese Phase nach dem initialen Zugriff und der Privilegienerweiterung und nutzt die Schlussfolgerungsfähigkeiten des Modells gegen sich selbst.
  4. Persistenz (Persistence)

    • Vorübergehende Angriffe haben eine begrenzte Wirkung; persistente Promptware bettet sich in den Langzeitspeicher des LLMs ein oder vergiftet Datenbanken, auf die der Agent zugreift.
    • Beispiel: Ein Wurm infiziert das E-Mail-Archiv eines Nutzers und führt bei jeder Zusammenfassung vergangener E-Mails schädlichen Code erneut aus.
  5. Befehls- und Steuerungskanal (Command-and-Control, C2)

    • Persistente Promptware ruft dynamisch Befehle von externen Quellen während der Inferenz ab und entwickelt sich von einer statischen Bedrohung zu einem steuerbaren Trojaner.
    • Obwohl nicht zwingend für die Kill-Chain erforderlich, ermöglicht C2 Angreifern, das Verhalten der Malware nach der Injektion zu modifizieren.
  6. Laterale Bewegung (Lateral Movement)

    • Der Angriff breitet sich vom ursprünglichen Opfer auf andere Nutzer, Geräte oder Systeme aus und nutzt die vernetzte Natur von KI-Agenten.
    • Beispiel: Ein infizierter E-Mail-Assistent leitet schädliche Payloads an alle Kontakte weiter, oder ein Angriff wechselt von einer Kalendereinladung zur Steuerung von Smart-Home-Geräten.
  7. Zielerreichung (Actions on Objective)

    • In der finalen Phase werden konkrete schädliche Ziele erreicht, darunter Datenexfiltration, Finanzbetrug oder physische Auswirkungen in der realen Welt.
    • Beispiele aus der Praxis umfassen KI-Agenten, die manipuliert werden, um Autos für 1 $ zu verkaufen oder Kryptowährungen auf Angreifer-Wallets zu transferieren.
    • Fortgeschrittene Angriffe können LLMs dazu bringen, beliebigen Code auszuführen und Angreifern die vollständige Kontrolle über das zugrundeliegende System zu gewähren.

Nachgewiesene Bedrohungen: Proof-of-Concept-Angriffe

Die Promptware-Kill-Chain ist keine Theorie. Forscher haben bereits End-to-End-Angriffe demonstriert, die diese Phasen ausnutzen:

  • „Invitation Is All You Need“ (arXiv:2508.12175):

    • Initialer Zugriff: Schädlicher Prompt, eingebettet in den Titel einer Google Calendar-Einladung.
    • Persistenz: Der Prompt blieb im Langzeitspeicher des Nutzer-Workspaces erhalten.
    • Laterale Bewegung: Google Assistant wurde dazu gebracht, Zoom zu starten.
    • Zielerreichung: Versteckte Video-Livestreams des Nutzers.
    • Hinweis: C2 und Aufklärung wurden in diesem Angriff nicht demonstriert.
  • „Here Comes the AI Worm“ (DOI:10.1145/3719027.3765196):

    • Initialer Zugriff: Prompt, injiziert in eine E-Mail, nutzt Rollenspiel-Techniken, um das LLM zur Befolgung von Anweisungen zu zwingen.
    • Persistenz: Der Prompt blieb im E-Mail-Archiv des Nutzers erhalten.
    • Laterale Bewegung: Der infizierte E-Mail-Assistent verfasste und versendete neue E-Mails mit sensiblen Daten an weitere Empfänger.
    • Hinweis: C2 und Aufklärung wurden nicht demonstriert.

Auswirkungen: Warum die Promptware-Kill-Chain relevant ist

Die Promptware-Kill-Chain unterstreicht einen kritischen Wandel in der KI-Sicherheitslandschaft. Im Gegensatz zu traditionellen Schwachstellen kann Prompt-Injection in aktuellen LLM-Architekturen nicht „behoben“ werden. Die Autoren argumentieren, dass Verteidiger eine „Assume-Breach-Mentalität“ annehmen müssen, die darauf abzielt, die Kill-Chain in späteren Phasen zu unterbrechen, anstatt den initialen Zugriff zu verhindern.

Wichtige Risiken umfassen:

  • Autonome Malware-Ausbreitung: KI-Agenten mit Zugriff auf E-Mails, Kalender und Unternehmenssysteme schaffen Autobahnen für schnelle laterale Bewegung.
  • Multimodale Exploits: Da LLMs zunehmend Bilder, Audio und Video verarbeiten, wachsen die Angriffsflächen exponentiell.
  • Physische Auswirkungen: Kompromittierte KI-Agenten können beliebigen Code ausführen, was zu Finanzbetrug, Datenlecks oder sogar zur Kontrolle über vernetzte Geräte führen kann.

Empfehlungen zur Abwehr

Um Promptware-Bedrohungen zu entschärfen, schlagen die Autoren eine mehrschichtige Verteidigungsstrategie vor:

  1. Privilegienerweiterung einschränken

    • Implementieren Sie strenge rollenbasierte Zugriffskontrollen für LLM-Interaktionen.
    • Setzen Sie Echtzeit-Überwachung ein, um Jailbreaking-Versuche zu erkennen und zu blockieren.
  2. Aufklärung unterbinden

    • Beschränken Sie die Fähigkeit des LLMs, Informationen über verbundene Dienste oder seine eigenen Fähigkeiten preiszugeben.
    • Nutzen Sie Sandboxing, um KI-Agenten von sensiblen Systemen zu isolieren.
  3. Persistenz verhindern

    • Überprüfen und bereinigen Sie regelmäßig Langzeitspeicher (z. B. E-Mail-Archive, Dokumentendatenbanken).
    • Implementieren Sie nach Möglichkeit ephemere, sitzungsbasierte Interaktionen.
  4. Befehls- und Steuerungskanäle unterbrechen

    • Blockieren Sie das dynamische Abrufen externer Befehle während der Inferenz.
    • Überwachen Sie verdächtige Netzwerkanfragen von KI-Agenten.
  5. Zielerreichung einschränken

    • Erzwingen Sie strenge Sicherheitsvorkehrungen für die Art von Aktionen, die KI-Agenten durchführen können (z. B. Finanztransaktionen, Codeausführung).
    • Verlangen Sie eine menschliche Freigabe („Human-in-the-Loop“) für risikoreiche Operationen.
  6. Systematisches Risikomanagement einführen

    • Wechseln Sie von reaktivem Patchen zu proaktivem Bedrohungsmodellieren für KI-Systeme.
    • Entwickeln Sie branchenweite Standards für LLM-Sicherheit, ähnlich dem MITRE ATT&CK-Framework für traditionelle Malware.

Fazit

Die Promptware-Kill-Chain bietet einen entscheidenden Rahmen, um die sich entwickelnde Bedrohungslandschaft von KI-gestützten Angriffen zu verstehen und sich dagegen zu verteidigen. Indem Promptware als komplexe, mehrstufige Malware-Kampagne erkannt wird, können Sicherheitsexperten über eng gefasste Lösungen hinausgehen und einen ganzheitlichen, risikobasierten Ansatz zur Sicherung von KI-Systemen verfolgen. Da LLMs zunehmend in Unternehmens- und persönliche Arbeitsabläufe integriert werden, kann die Dringlichkeit, diese Bedrohungen anzugehen, nicht hoch genug eingeschätzt werden.

Teilen

TwitterLinkedIn