El auge de la inteligencia artificial ha traído avances impresionantes, pero también ha abierto nuevas puertas a posibles vectores de ataque. Uno de los cambios más notables en el panorama actual es el surgimiento de una nueva superficie de prueba: los modelos de lenguaje (LLM). A diferencia del pentesting tradicional que se realiza sobre sitios web y aplicaciones, los LLM/IA plantean desafíos completamente distintos que los equipos de seguridad deben empezar a enfrentar con urgencia.
¿En qué se diferencian estas dos disciplinas de pentesting? En este blog, desglosamos las principales diferencias entre ambos enfoques, desde las superficies de ataque hasta las metodologías, pasando por las técnicas de explotación y el impacto potencial. Este análisis fue desarrollado por nuestra Lead Striker, Yesenia Trejo, experta en ofensiva y seguridad de IA.
La superficie de ataque es el primer gran cambio entre el pentesting web y el de LLM.
En el caso de un sitio web o una aplicación tradicional, el análisis se centra en componentes técnicos como:
El objetivo es claro: buscar vulnerabilidades comunes como inyecciones SQL, XSS o CSRF que permitan comprometer el sistema.
En cambio, cuando se evalúa un LLM, el enfoque cambia radicalmente. Las superficies de ataque incluyen:
En este contexto, los fallos no están necesariamente en el código, sino en el comportamiento del modelo, su exposición a datos sensibles o su respuesta ante entradas manipuladas.
Aunque ambos tipos de pentesting buscan encontrar vulnerabilidades, el “qué” y el “cómo” varían significativamente.
En pentesting web, los objetivos típicos incluyen:
En cambio, en pentesting de LLM/IA, el atacante busca:
Los métodos también se adaptan según el tipo de objetivo.
Estas técnicas no buscan “romper” el modelo como tal, sino conseguir que haga lo que no debería: revelar datos, generar desinformación o ejecutar acciones no autorizadas.
Los impactos también reflejan las diferencias en el tipo de sistema evaluado.
Este último punto es especialmente crítico: un modelo mal entrenado o comprometido puede convertirse en un vector de ataque para toda una organización.
En el mundo del pentesting web, existen estándares ampliamente adoptados, como:
En el caso de los LLMs/IA, aún no hay una metodología globalmente reconocida. Sin embargo, están surgiendo marcos relevantes, como el OWASP Top 10 para LLMs, que ya identifican amenazas específicas como la inyección de prompts o la exposición de datos a través de salidas mal filtradas.
En Strike, combinamos metodologías emergentes con técnicas propietarias desarrolladas por nuestro equipo de investigación. Evaluamos modelos de inteligencia artificial líderes como ChatGPT, DeepSeek o Ngrok, participando además en programas de bug bounty para divulgar de forma responsable las vulnerabilidades detectadas en estos sistemas.
A diferencia del pentesting web —donde muchas amenazas ya están bien documentadas—, la seguridad de los modelos de lenguaje es un terreno más nuevo y dinámico. Requiere no solo habilidades técnicas, sino también un entendimiento profundo del comportamiento del modelo, sus limitaciones y los riesgos asociados a su entrenamiento y uso.
Por eso, desde Strike aplicamos métodos de evasión y jailbreak desarrollados internamente que no se hacen públicos, para garantizar su efectividad. Nuestra misión es mantenernos al frente de la investigación en este campo, ofreciendo a nuestros clientes protección real frente a un entorno que cambia todos los días.