Amenazas Emergentes de Canales Laterales en Modelos de Lenguaje Grande (LLM)
Investigadores descubren vulnerabilidades críticas en canales laterales que exponen datos sensibles en LLMs, incluyendo prompts de usuarios y PII, incluso en comunicaciones cifradas.
Investigadores Descubren Vulnerabilidades Críticas en Canales Laterales en LLMs
Investigadores en ciberseguridad han identificado múltiples vectores de ataque de canales laterales que afectan a los modelos de lenguaje grande (LLMs), exponiendo prompts de usuarios, temas de conversación e incluso información de identificación personal (PII), a pesar del uso de comunicaciones cifradas. Tres artículos recientemente publicados detallan técnicas novedosas que explotan características de temporización, patrones de decodificación especulativa y fugas de metadatos en sistemas de inferencia de LLMs.
1. Ataques Remotos de Temporización en Inferencia Eficiente de LLMs
Un equipo de investigadores demostró cómo las optimizaciones de eficiencia en los LLMs —como el muestreo especulativo y la decodificación en paralelo— introducen variaciones de temporización dependientes de los datos, que pueden ser explotadas de manera remota. Al analizar el tráfico de red cifrado entre un usuario y un servicio de LLM, los atacantes pueden inferir:
- Temas de conversación (por ejemplo, asesoramiento médico vs. asistencia en programación) con >90% de precisión en sistemas de código abierto.
- Mensajes específicos o lenguaje del usuario en plataformas de producción como OpenAI’s ChatGPT y Anthropic’s Claude.
- Recuperación de PII (por ejemplo, números de teléfono, detalles de tarjetas de crédito) mediante ataques de boosting activo en modelos de código abierto.
El ataque solo requiere acceso de caja negra, lo que lo hace factible para adversarios que monitorean el tráfico de red. Las defensas potenciales incluyen el traffic shaping y técnicas de inferencia de tiempo constante, aunque estas pueden afectar el rendimiento.
2. Canales Laterales mediante Decodificación Especulativa en LLMs
La decodificación especulativa —una técnica utilizada para mejorar el rendimiento y la latencia de los LLMs— se descubrió que filtra información sensible a través de patrones de especulación dependientes de la entrada. Los investigadores demostraron que monitorear los conteos de tokens por iteración o los tamaños de paquetes permite a los atacantes:
- Identificar huellas de consultas de usuarios a partir de un conjunto de 50 prompts con >75% de precisión en cuatro esquemas de decodificación especulativa (REST, LADE, BiLD, EAGLE).
- Filtrar contenidos de bases de datos confidenciales a tasas superiores a 25 tokens/segundo.
Incluso con configuraciones de temperatura más altas (por ejemplo, 1.0), la precisión se mantuvo significativamente por encima de los niveles aleatorios. Las mitigaciones propuestas incluyen relleno de paquetes y agregación de tokens por iteración, aunque estas introducen compromisos en eficiencia.
3. Whisper Leak: Inferencia de Prompts Basada en Metadatos
El ataque Whisper Leak explota patrones de tamaño y temporización de paquetes en el tráfico cifrado de LLMs para clasificar temas de prompts de usuarios. Evaluado en 28 LLMs populares de proveedores principales, el ataque logró:
- Clasificación casi perfecta (a menudo >98% AUPRC) para temas sensibles como "lavado de dinero".
- Alta precisión incluso con un desequilibrio extremo de clases (relación ruido-objetivo de 10,000:1).
- Recuperación del 5-20% de conversaciones objetivo en algunos modelos.
Este ataque representa riesgos para usuarios bajo vigilancia de red por parte de ISPs, gobiernos o adversarios locales. Las mitigaciones, como relleno aleatorio, agrupación de tokens e inyección de paquetes, reducen su efectividad, pero no eliminan la amenaza por completo.
Impacto y Recomendaciones
Estos ataques de canales laterales destacan un riesgo creciente a medida que los LLMs se implementan en servicios de salud, legales y comunicaciones confidenciales. Puntos clave para profesionales de la seguridad:
- Monitorear patrones de tráfico cifrado en busca de variaciones anómalas en temporización o tamaño de paquetes.
- Evaluar implementaciones de decodificación especulativa para detectar posibles fugas de información.
- Implementar traffic shaping (por ejemplo, respuestas de tiempo constante) cuando sea factible.
- Adoptar técnicas de ofuscación de metadatos (por ejemplo, relleno, agrupación) para reducir fugas.
Aunque algunos proveedores han comenzado a desplegar contramedidas, la investigación subraya la necesidad de una colaboración a nivel industrial para abordar las fugas de metadatos en sistemas de IA.