No items found.

Pentesting web vs. pentesting LLM/AI: How do they differ and why does it matter?

Yesenia Trejo

2 minutos

min read

June 6, 2025

Pentesting Web vs. Pentesting de LLM/IA: ¿en qué se diferencian y por qué importa?

El auge de la inteligencia artificial ha traído avances impresionantes, pero también ha abierto nuevas puertas a posibles vectores de ataque. Uno de los cambios más notables en el panorama actual es el surgimiento de una nueva superficie de prueba: los modelos de lenguaje (LLM). A diferencia del pentesting tradicional que se realiza sobre sitios web y aplicaciones, los LLM/IA plantean desafíos completamente distintos que los equipos de seguridad deben empezar a enfrentar con urgencia.

¿En qué se diferencian estas dos disciplinas de pentesting? En este blog, desglosamos las principales diferencias entre ambos enfoques, desde las superficies de ataque hasta las metodologías, pasando por las técnicas de explotación y el impacto potencial. Este análisis fue desarrollado por nuestra Lead Striker, Yesenia Trejo, experta en ofensiva y seguridad de IA.

¿Qué se pone a prueba?

La superficie de ataque es el primer gran cambio entre el pentesting web y el de LLM.

En el caso de un sitio web o una aplicación tradicional, el análisis se centra en componentes técnicos como:

APIs
Bases de datos
Mecanismos de autenticación
Formularios de entrada
Sesiones de usuario

El objetivo es claro: buscar vulnerabilidades comunes como inyecciones SQL, XSS o CSRF que permitan comprometer el sistema.

En cambio, cuando se evalúa un LLM, el enfoque cambia radicalmente. Las superficies de ataque incluyen:

La API del modelo
Las instrucciones o “prompts” que recibe
Los datos de entrenamiento utilizados
El contenido que genera en sus respuestas
Comandos del sistema que podrían estar ocultos

En este contexto, los fallos no están necesariamente en el código, sino en el comportamiento del modelo, su exposición a datos sensibles o su respuesta ante entradas manipuladas.

Objetivos del atacante

Aunque ambos tipos de pentesting buscan encontrar vulnerabilidades, el “qué” y el “cómo” varían significativamente.

En pentesting web, los objetivos típicos incluyen:

Encontrar fallos técnicos explotables
Escalar privilegios
Acceder sin autorización a sistemas internos

En cambio, en pentesting de LLM/IA, el atacante busca:

Inyectar instrucciones maliciosas a través de los prompts
Filtrar información confidencial que el modelo pueda haber aprendido
Manipular sesgos o influenciar la salida del modelo
Saltarse las restricciones de seguridad configuradas por el proveedor

Técnicas de explotación

Los métodos también se adaptan según el tipo de objetivo.

En sitios web: Fuzzing, explotación de CVEs conocidos, robo de sesiones y escalada de privilegios.

En LLMs/IA: Prompts adversarios (diseñados para evadir restricciones), ataques de jailbreak (para desbloquear funcionalidades ocultas), inyecciones indirectas de instrucciones y manipulación del fine-tuning del modelo,ataques via MCP, entre otros.

Estas técnicas no buscan “romper” el modelo como tal, sino conseguir que haga lo que no debería: revelar datos, generar desinformación o ejecutar acciones no autorizadas.

¿Qué pasa si el ataque tiene éxito?

Los impactos también reflejan las diferencias en el tipo de sistema evaluado.

En sitios web:

Accesos no autorizados
Fugas de datos
Defacements
Compromiso total del servidor

En LLMs/IA:

Filtración de información sensible (por ejemplo, datos aprendidos de sesiones pasadas)
Generación de contenido falso o sesgado
Violaciones de cumplimiento (como datos protegidos que se exponen)
Comportamiento éticamente riesgoso del modelo
Inclusión de puertas traseras en la cadena de suministro mediante datos de entrenamiento manipulados

Este último punto es especialmente crítico: un modelo mal entrenado o comprometido puede convertirse en un vector de ataque para toda una organización.

¿Cómo se prueba cada uno?

En el mundo del pentesting web, existen estándares ampliamente adoptados, como:

OWASP Testing Guide
OWASP Top 10
PTES
NIST

En el caso de los LLMs/IA, aún no hay una metodología globalmente reconocida. Sin embargo, están surgiendo marcos relevantes, como el OWASP Top 10 para LLMs, que ya identifican amenazas específicas como la inyección de prompts o la exposición de datos a través de salidas mal filtradas.

En Strike, combinamos metodologías emergentes con técnicas propietarias desarrolladas por nuestro equipo de investigación. Evaluamos modelos de inteligencia artificial líderes como ChatGPT, DeepSeek o Ngrok, participando además en programas de bug bounty para divulgar de forma responsable las vulnerabilidades detectadas en estos sistemas.

Un campo en evolución constante

A diferencia del pentesting web —donde muchas amenazas ya están bien documentadas—, la seguridad de los modelos de lenguaje es un terreno más nuevo y dinámico. Requiere no solo habilidades técnicas, sino también un entendimiento profundo del comportamiento del modelo, sus limitaciones y los riesgos asociados a su entrenamiento y uso.

Por eso, desde Strike aplicamos métodos de evasión y jailbreak desarrollados internamente que no se hacen públicos, para garantizar su efectividad. Nuestra misión es mantenernos al frente de la investigación en este campo, ofreciendo a nuestros clientes protección real frente a un entorno que cambia todos los días.