研究严重

提示件攻击链:针对AI系统的七阶段威胁解析

1分钟阅读来源: Schneier on Security
Diagram illustrating the seven stages of the promptware kill chain: initial access, privilege escalation, reconnaissance, persistence, command and control, lateral movement, and actions on objective

安全研究揭示针对大型语言模型(LLM)的新型多阶段攻击框架——提示件攻击链。了解其七阶段原理及防御策略,应对AI安全威胁。

AI安全威胁演进:提示件攻击链浮出水面

安全研究人员近期识别出一种针对大型语言模型(LLM)的复杂多阶段攻击框架,称为“提示件攻击链”(promptware kill chain)。该模型在最新论文中提出,将提示注入攻击重新定义为一种复杂的恶意软件执行机制,对AI驱动的系统构成重大风险。

提示件攻击链为理解攻击者如何利用LLM提供了结构化视角,超越了对提示注入的狭隘关注,揭示了更广泛且隐蔽的威胁格局。论文作者指出:“针对基于LLM的系统的攻击已演变为一类独特的恶意软件执行机制”,强调需要采取全面的防御策略。

技术解析:提示件攻击链的七个阶段

提示件攻击链由七个不同阶段组成,每个阶段均模仿传统恶意软件攻击流程,但针对LLM的独特架构进行了调整:

  1. 初始访问(Initial Access)

    • 恶意载荷通过直接(用户输入)或间接(从网页、电子邮件或文档等检索内容中嵌入的指令)方式进入AI系统。
    • 多模态LLM进一步扩大了攻击面,允许恶意指令隐藏在图像或音频文件中。
    • 核心漏洞:LLM将所有输入视为单一的token序列,缺乏架构边界来区分可信指令和不可信数据。
  2. 权限提升(Privilege Escalation,即越狱/Jailbreaking)

    • 攻击者通过社交工程(如诱导模型采用无视规则的角色)或对抗性提示后缀等技术绕过安全防护。
    • 此阶段解锁LLM的全部功能用于恶意用途,类似于传统系统中从用户权限提升至管理员权限。
  3. 侦察(Reconnaissance)

    • 被攻陷的LLM被操纵以泄露连接服务、资产及自身能力的信息,使攻击链能够在不惊动受害者的情况下自主推进。
    • 与传统恶意软件不同,此阶段发生在初始访问和权限提升之后,利用模型的推理能力反噬自身。
  4. 持久化(Persistence)

    • 短暂性攻击的影响有限;持久化提示件会嵌入LLM的长期记忆或污染代理依赖的数据库。
    • 示例:蠕虫感染用户的电子邮件存档,每次AI总结历史邮件时重新执行恶意代码。
  5. 命令与控制(Command-and-Control,C2)

    • 持久化提示件在推理过程中动态从外部来源获取命令,从静态威胁演变为可控的木马。
    • 虽然不是攻击链的必备阶段,但C2使攻击者能够在注入后修改恶意软件的行为。
  6. 横向移动(Lateral Movement)

    • 攻击从初始受害者扩散至其他用户、设备或系统,利用AI代理的互联特性。
    • 示例:被感染的电子邮件助手向所有联系人转发恶意载荷,或攻击从日历邀请扩展至控制智能家居设备。
  7. 目标行动(Actions on Objective)

    • 最终阶段实现具体的恶意目标,包括数据泄露、金融欺诈或物理世界影响。
    • 现实案例包括AI代理被操纵以1美元出售汽车或将加密货币转移至攻击者控制的钱包。
    • 高级攻击可能诱骗LLM执行任意代码,使攻击者获得对底层系统的完全控制。

已验证威胁:概念验证攻击

提示件攻击链并非理论假设。研究人员已展示多个利用这些阶段的端到端攻击案例:

  • 《邀请即一切》(arXiv:2508.12175

    • 初始访问:恶意提示嵌入Google日历邀请标题。
    • 持久化:提示长期存留于用户工作区记忆中。
    • 横向移动:Google助手被诱骗启动Zoom。
    • 目标行动:秘密直播用户视频。
    • :此攻击未展示C2和侦察阶段。
  • 《AI蠕虫来袭》(DOI:10.1145/3719027.3765196

    • 初始访问:提示注入电子邮件,利用角色扮演技术迫使LLM遵循指令。
    • 持久化:提示存留于用户电子邮件存档中。
    • 横向移动:被感染的邮件助手起草并发送包含敏感数据的新邮件给其他收件人。
    • :此攻击未展示C2和侦察阶段。

影响分析:为何提示件攻击链至关重要

提示件攻击链凸显了AI安全格局的关键转变。与传统漏洞不同,提示注入无法在当前LLM架构中被“修复”。作者认为,防御者必须采取假设已被攻陷(assume-breach)的心态,专注于在后期阶段阻断攻击链,而非防止初始访问。

主要风险包括:

  • 自主恶意软件传播:可访问电子邮件、日历和企业系统的AI代理为快速横向移动提供了高速通道。
  • 多模态利用:随着LLM扩展至处理图像、音频和视频,攻击面呈指数级增长。
  • 物理世界影响:被攻陷的AI代理可执行任意代码,导致金融欺诈、数据泄露,甚至控制联网设备。

防御建议

为缓解提示件威胁,作者提出了多层次防御策略:

  1. 限制权限提升

    • 为LLM交互实施严格的基于角色的访问控制(RBAC)。
    • 部署实时监控以检测并阻止越狱尝试。
  2. 约束侦察能力

    • 限制LLM披露连接服务或自身能力信息的能力。
    • 使用沙盒隔离AI代理与敏感系统。
  3. 防止持久化

    • 定期审计并清理长期记忆存储(如电子邮件存档、文档数据库)。
    • 尽可能采用临时会话交互模式。
  4. 破坏命令与控制

    • 阻止推理过程中动态获取外部命令。
    • 监控AI代理的异常网络请求。
  5. 限制目标行动

    • 对AI代理可执行的操作类型(如金融交易、代码执行)实施严格防护。
    • 对高风险操作要求人工审批。
  6. 采用系统性风险管理

    • 从被动修补转向主动威胁建模,针对AI系统进行风险评估。
    • 制定行业标准,类似于传统恶意软件的MITRE ATT&CK框架。

结论

提示件攻击链为理解和防御不断演进的AI驱动攻击提供了关键框架。通过将提示件视为复杂的多阶段恶意软件攻击,安全从业者能够超越狭隘的修补方案,采取全面的风险导向防御策略。随着LLM日益融入企业和个人工作流程,解决这些威胁的紧迫性不容忽视。

分享

TwitterLinkedIn