Close
Solicite sua demonstração personalizada
Obrigado!
Entraremos em contato com você o mais rápido possível.
Enquanto isso, crie sua conta para começar a obter valor agora mesmo. É grátis!
Opa! Algo deu errado ao enviar o formulário.

Pentesting web vs. pentesting de LLM/IA: como eles diferem e por que isso importa?

2 minutes
min read
June 6, 2025

A ascensão da inteligência artificial trouxe avanços impressionantes, mas também abriu portas para novos vetores de ataque. Uma das mudanças mais notáveis que estamos observando é o surgimento de uma nova superfície de testes: os modelos de linguagem (LLMs). Diferentemente do pentesting tradicional, realizado em sites e aplicativos, as avaliações de segurança de LLMs/IA apresentam desafios completamente distintos que as equipes de segurança precisam endereçar com urgência.

Como essas duas disciplinas se diferenciam?

Neste blog, vamos detalhar as principais diferenças entre elas — desde as superfícies de ataque e metodologias até as técnicas de exploração e os impactos potenciais. Esta análise foi desenvolvida pela nossa Lead Striker, Yesenia Trejo, especialista em segurança ofensiva e IA.

O que está sendo testado?

A primeira grande diferença entre o pentesting web e o pentesting de LLM está na superfície de ataque.

Para um site ou aplicativo tradicional, o foco recai sobre componentes técnicos como:

  • APIs
  • Bancos de dados
  • Mecanismos de autenticação
  • Formulários de entrada
  • Sessões de usuário

O objetivo é direto: identificar vulnerabilidades comuns como injeções SQL, XSS ou CSRF que possam comprometer o sistema.

Já as avaliações de segurança de LLMs focam em uma superfície completamente diferente:

  • A API do modelo
  • Os prompts ou instruções recebidos
  • Os dados de treinamento utilizados
  • O conteúdo gerado nas respostas
  • Comandos do sistema que possam estar ocultos

Aqui, as falhas não estão necessariamente no código em si, mas no comportamento do modelo, na exposição de dados sensíveis ou em como ele reage a entradas manipuladas.

Objetivos do atacante

Embora ambos os tipos de pentesting tenham como meta identificar vulnerabilidades, o “o quê” e o “como” variam bastante.

No pentesting web, os objetivos típicos incluem:

  • Encontrar falhas técnicas exploráveis
  • Escalar privilégios
  • Obter acesso não autorizado a sistemas internos

No pentesting de LLM/IA, os objetivos do atacante podem ser:

  • Injetar instruções maliciosas via prompts
  • Extrair informações confidenciais que o modelo aprendeu
  • Manipular vieses ou influenciar a saída do modelo
  • Contornar controles de segurança impostos pelo provedor

Técnicas de exploração

Os métodos de ataque também se adaptam ao alvo.

Para sites:

  • Fuzzing
  • Exploração de CVEs conhecidos
  • Sequestro de sessões
  • Escalonamento de privilégios

Para LLMs/IA:

  • Prompts adversariais (desenvolvidos para burlar restrições)
  • Ataques de jailbreak (desbloqueando funcionalidades ocultas)
  • Injeções indiretas de prompts
  • Manipulação de ajustes finos ou dados de treinamento
  • Ataques ao protocolo de controle do modelo (MCP), entre outros

Essas técnicas não buscam “quebrar” o modelo, mas fazê-lo agir de maneiras indevidas: vazando dados, gerando desinformação ou executando ações não autorizadas.

E se o ataque for bem-sucedido?

Os impactos também refletem a natureza diferente desses sistemas.

Para sites:

  • Acesso não autorizado
  • Vazamentos de dados
  • Defacements
  • Comprometimento total do servidor

Para LLMs/IA:

  • Vazamento de informações sensíveis (como dados aprendidos em sessões anteriores)
  • Geração de conteúdo falso ou enviesado
  • Violações de conformidade (expondo dados protegidos)
  • Comportamento ético questionável por parte do modelo
  • Possíveis backdoors na cadeia de suprimentos via dados de treinamento comprometidos

Este último ponto é especialmente preocupante: um modelo mal treinado ou comprometido pode se tornar uma ameaça para toda a organização.

Como cada um é testado?

O pentesting web é amparado por padrões bem estabelecidos, como:

  • OWASP Testing Guide
  • OWASP Top 10
  • PTES
  • NIST

Para LLMs/IA, ainda não existe uma metodologia globalmente reconhecida. No entanto, frameworks emergentes como o OWASP Top 10 para LLMs começam a identificar ameaças específicas, como injeção de prompts e exposição de dados por saídas mal filtradas.

Na Strike, combinamos esses frameworks emergentes com técnicas proprietárias desenvolvidas por nossa equipe de pesquisa. Testamos modelos líderes de IA como ChatGPT, DeepSeek e Ngrok, e participamos ativamente de programas de bug bounty para divulgar de forma responsável as vulnerabilidades que encontramos.

Um campo em rápida evolução

Diferentemente do pentesting web — onde muitas ameaças já são bem documentadas —, a segurança de modelos de linguagem é um campo mais novo e dinâmico. Exige não apenas expertise técnica, mas também um entendimento profundo do comportamento desses modelos, suas limitações e os riscos relacionados ao treinamento e uso.

É por isso que, na Strike, aplicamos técnicas internas de evasão e jailbreak, mantidas em sigilo para garantir sua eficácia. Nossa missão é estar na vanguarda da pesquisa nessa área e oferecer aos nossos clientes proteção real em um cenário de ameaças que está em constante mudança.

Subscribe to our newsletter and get our latest features and exclusive news.

Thank you! Your submission has been received!
Oops! Something went wrong while submitting the form.