Pesquisadores Demonstram Sequestro de Comandos de IA via Placas de Trânsito Maliciosas
Pesquisa revela como placas de trânsito adulteradas podem sequestrar comandos de IA em veículos autônomos e drones, explorando vulnerabilidades em modelos visuais-linguísticos (LVLMs).
Sistemas de IA Vulneráveis a Sequestro de Comandos via Prompts Visuais
Pesquisadores de segurança identificaram um novo vetor de ataque direcionado a sistemas de Inteligência Artificial (IA) incorporada, demonstrando como agentes maliciosos podem manipular veículos autônomos e drones por meio de injeção de prompts visuais. O ataque, denominado CHAI (Command Hijacking Against Embodied AI), explora vulnerabilidades em Modelos Visuais-Linguísticos de Grande Escala (LVLMs, na sigla em inglês) para sobrescrever processos de tomada de decisão da IA.
Principais Descobertas da Pesquisa
O artigo, intitulado "CHAI: Command Hijacking Against Embodied AI", revela como atacantes podem embutir instruções de linguagem natural enganosas — como placas de trânsito adulteradas — em entradas visuais para desencadear ações não intencionais. A equipe de pesquisa desenvolveu uma abordagem sistemática para:
- Buscar o espaço de tokens dos LVLMs para identificar padrões exploráveis.
- Construir um dicionário de prompts adversariais que contornam salvaguardas da IA.
- Gerar Prompts de Ataque Visual (VAPs) capazes de sequestrar comandos de IA.
Detalhes Técnicos do Ataque CHAI
O estudo avaliou o CHAI em quatro sistemas baseados em LVLMs, incluindo:
- Plataformas de direção autônoma (mundo real e simulado).
- Protocolos de pouso de emergência de drones.
- Sistemas de rastreamento aéreo de objetos.
- Um veículo robótico físico para validação em cenários reais.
Diferentemente de ataques adversariais tradicionais, que dependem de perturbações em nível de pixel, o CHAI aproveita o raciocínio semântico e multimodal — pontos fortes da próxima geração de IA — para alcançar taxas de sucesso mais elevadas. Os pesquisadores descobriram que o ataque superou consistentemente métodos de última geração existentes, levantando preocupações sobre a robustez da IA incorporada em aplicações críticas de segurança.
Impacto e Implicações de Segurança
As descobertas destacam uma lacuna crítica na segurança de IA: defesas projetadas para ataques adversariais convencionais podem falhar contra manipulações baseadas em prompts. Veículos autônomos, drones e sistemas robóticos que dependem de LVLMs podem ser enganados para:
- Interpretar erroneamente placas de trânsito (ex.: uma placa de "PARE" alterada para "SIGA").
- Ignorar protocolos de emergência (ex.: forçar um drone a pousar em uma zona insegura).
- Desviar de rotas pretendidas (ex.: redirecionar um robô de entregas para um destino malicioso).
Recomendações para Mitigação
Embora a pesquisa não proponha contramedidas específicas, ela destaca a necessidade urgente de:
- Validação aprimorada de entradas para detectar e filtrar prompts adversariais.
- Detecção de anomalias multimodais para identificar inconsistências entre dados visuais e contextuais.
- Estruturas de teste de robustez adaptadas a sistemas de IA incorporada.
- Colaboração entre desenvolvedores de IA e especialistas em cibersegurança para enfrentar ameaças emergentes.
O artigo completo está disponível no arXiv, e uma análise adicional pode ser encontrada na cobertura do The Register.
Esta pesquisa foi originalmente destacada pelo especialista em cibersegurança Bruce Schneier.