El auge de la inteligencia artificial ha traído avances impresionantes, pero también ha abierto nuevas puertas a posibles vectores de ataque. Uno de los cambios más notables en el panorama actual es el surgimiento de una nueva superficie de prueba: los modelos de lenguaje (LLM). A diferencia del pentesting tradicional que se realiza sobre sitios web y aplicaciones, los LLM/IA representan desafíos completamente diversos que los equipos de seguridad deben comenzar a hacer frente con urgencia.
¿En qué se diferencian estas dos disciplinas de pentesting? En este blog, descompenamos las principales diferencias entre ambos enfoques, desde las superficies de ataque hasta las metodologías, pasando por las técnicas de explotación y el potencial de impacto. Este análisis fue desarrollado por nuestra líder, Yesenia Trejo, experta en ofensiva y seguridad de IA.
La superficie de ataque es el primer gran cambio entre el pentesting web y el de LLM.
En el caso de un sitio web o una aplicación tradicional, el análisis se centra en componentes técnicos como:
El objetivo es claro: buscar las siguientes: buscar las siguientes: las insignias SQL, XSS o CSRF que le de manera que le sea de acceso al sistema.
En cambio, cuando se prueba un LLM, el enfoque cambia de manera más. Las superficies de ataque son:
En este contexto, los fallos no son necesariamente en el código, sino en el comportamiento del modelo, su exposición a datos sensibles o su respuesta ante entradas manipuladas.
Aunque ambos tipos de pentesting buscan encontrar problemas, el “qué” y el “cómo” son muy interesantes.
En pentesting web, los objetivos más interesantes son:
En cambio, en caso de LLM/IA, el agacro busca:
Los métodos también se pueden ahogar según el tipo de objetivo.
Estas técnicas no buscan “romper” el modelo como tal, sino conseguir que haga lo que no debería: revelar datos, generar desinformación o ejecutar acciones no AUTORIZADAS.
Los incidentes también se ven como las diferencias en el tipo de sistema evaluado.
Este último punto es especialmente crítico: un modelo mal entrenado o comprometido puede convertirse en un vector de ataque para toda una organización.
En el mundo del pentesting web, existen estándares muy adoptados, como:
En el caso de los LLMS/IA, aún no hay una metodología globalmente reconocida. Sin embargo, están surguiando marcos relevantes, como el OWASP Top 10 para LLMs, que ya identifique amenazas específicas como la inyección de mensajes o la exposición de datos a través de salidas mal filtradas.
En Huelga, combinamos metodologías emergentes con técnicas propietarias desarrolladas por nuestro equipo de investigación. Evaluamos modelos de inteligencia artificial líderes como ChatGPT, DeepSeek o Ngrok, participando además en programas de bug bounty para divulgar de forma responsable las fallas detectadas en estos sistemas.
A diferencia del pentesting web —donde muchas amenazas ya están bien documentadas—, la seguridad de los modelos de lenguaje es un terreno más nuevo y dinámico. No requiere solo habilidades técnicas, sino también un profundo entendimiento del comportamiento del modelo, sus limitaciones y los riesgos asociados a su entrenamiento y uso.
Por eso, desde Strike aplicamos métodos de evasión y jailbreak que no se hacen públicos, para garantizar su efectividad. Nuestra misión es mantenernos al frente de la investigación en este campo, al brindar a nuestros clientes protección real frente a un entorno que cambia todos los días.