Close
Solicita tu demo personalizada
¡Gracias!
Nos pondremos en contacto contigo lo antes posible.
Mientras tanto crea tu cuenta para empezar a obtener valor ahora mismo. ¡Es gratis!
¡Ups! Algo salió mal al enviar el formulario.

Pentesting Web vs. Pentesting de LLM/IA: ¿en qué se diferencian y por qué importa?

2 minutes
min read
June 6, 2025

El auge de la inteligencia artificial ha traído avances impresionantes, pero también ha abierto nuevas puertas a posibles vectores de ataque. Uno de los cambios más notables en el panorama actual es el surgimiento de una nueva superficie de prueba: los modelos de lenguaje (LLM). A diferencia del pentesting tradicional que se realiza sobre sitios web y aplicaciones, los LLM/IA representan desafíos completamente diversos que los equipos de seguridad deben comenzar a hacer frente con urgencia.

¿En qué se diferencian estas dos disciplinas de pentesting? En este blog, descompenamos las principales diferencias entre ambos enfoques, desde las superficies de ataque hasta las metodologías, pasando por las técnicas de explotación y el potencial de impacto. Este análisis fue desarrollado por nuestra líder, Yesenia Trejo, experta en ofensiva y seguridad de IA.

¿Qué se pone a prueba?

La superficie de ataque es el primer gran cambio entre el pentesting web y el de LLM.

En el caso de un sitio web o una aplicación tradicional, el análisis se centra en componentes técnicos como:

  • APIs
  • Bases de datos
  • Autenticación de mecanismos
  • Formularios de entrada
  • Sesiones de usuario

El objetivo es claro: buscar las siguientes: buscar las siguientes: las insignias SQL, XSS o CSRF que le de manera que le sea de acceso al sistema.

En cambio, cuando se prueba un LLM, el enfoque cambia de manera más. Las superficies de ataque son:

  • La API del modelo
  • Las instrucciones o “indicaciones” que recibe
  • Los datos de entrenamiento que se les ha valido
  • El contenido que genera en sus respuestas
  • Comandos del sistema que le llevarán a estar ocultos

En este contexto, los fallos no son necesariamente en el código, sino en el comportamiento del modelo, su exposición a datos sensibles o su respuesta ante entradas manipuladas.

Objetivos del Atacante

Aunque ambos tipos de pentesting buscan encontrar problemas, el “qué” y el “cómo” son muy interesantes.

En pentesting web, los objetivos más interesantes son:

  • Encontrar fallos técnicos explotables
  • Escalar privilegios
  • Acceder sin autorización a sistemas internos

En cambio, en caso de LLM/IA, el agacro busca:

  • Inyectar instrucciones maliciosas a través de las indicaciones
  • Filtrar información confidencial que el modelo pueda haber aprendido
  • Manipular los sesos o influenciar la salida del modelo
  • Salte las restricciones de seguridad configuradas por el proveedor

Técnicas de explotación

Los métodos también se pueden ahogar según el tipo de objetivo.

En sitios web: Fuzzing, explotación de CVes conocidos, robo de sesiones y escalada de Privilegios.
En LLMS/IA: Prompts adversarios (diseñados para evadir restricciones), ataques de jailbreak (para desbloquear características ocultas), inyecciones indirectas de instrucciones y manipulación del fine-tuning del modelo, ataques vía MCP (Model context Protocol), entre otros.

Estas técnicas no buscan “romper” el modelo como tal, sino conseguir que haga lo que no debería: revelar datos, generar desinformación o ejecutar acciones no AUTORIZADAS.

¿Qué pasa si el ataque tiene éxito?

Los incidentes también se ven como las diferencias en el tipo de sistema evaluado.

En sitios web:

  • Accesos no Autorizados
  • Data Fughes
  • Desfactaciones
  • Compromiso total del servidor

En LLMS/IA:

  • Filtración de información sensible (por ejemplo, datos aprendidos de sesiones superadas)
  • Generación de contenido falso o segado
  • Violaciones de cumplimiento (como datos protegidos que se depara)
  • Comportamiento éticamente riesgoso del modelo
  • Inclusión de puertas traseras en la cadena de suministro mediante datos de entrenamiento manipulados

Este último punto es especialmente crítico: un modelo mal entrenado o comprometido puede convertirse en un vector de ataque para toda una organización.

¿Cómo se prueba cada uno?

En el mundo del pentesting web, existen estándares muy adoptados, como:

  • Guía de pruebas OWASP
  • OWASP Top 10
  • PTES
  • NIST

En el caso de los LLMS/IA, aún no hay una metodología globalmente reconocida. Sin embargo, están surguiando marcos relevantes, como el OWASP Top 10 para LLMs, que ya identifique amenazas específicas como la inyección de mensajes o la exposición de datos a través de salidas mal filtradas.

En Huelga, combinamos metodologías emergentes con técnicas propietarias desarrolladas por nuestro equipo de investigación. Evaluamos modelos de inteligencia artificial líderes como ChatGPT, DeepSeek o Ngrok, participando además en programas de bug bounty para divulgar de forma responsable las fallas detectadas en estos sistemas.

Un campo en evolución constante

A diferencia del pentesting web —donde muchas amenazas ya están bien documentadas—, la seguridad de los modelos de lenguaje es un terreno más nuevo y dinámico. No requiere solo habilidades técnicas, sino también un profundo entendimiento del comportamiento del modelo, sus limitaciones y los riesgos asociados a su entrenamiento y uso.

Por eso, desde Strike aplicamos métodos de evasión y jailbreak que no se hacen públicos, para garantizar su efectividad. Nuestra misión es mantenernos al frente de la investigación en este campo, al brindar a nuestros clientes protección real frente a un entorno que cambia todos los días.

Subscribe to our newsletter and get our latest features and exclusive news.

Thank you! Your submission has been received!
Oops! Something went wrong while submitting the form.