Pentesting web vs. pentesting de LLM/IA: como eles diferem e por que isso importa?

Yesenia Trejo

2 minutes

min read

June 6, 2025

A ascensão da inteligência artificial trouxe avanços impressionantes, mas também abriu portas para novos vetores de ataque. Uma das mudanças mais notáveis que estamos observando é o surgimento de uma nova superfície de testes: os modelos de linguagem (LLMs). Diferentemente do pentesting tradicional, realizado em sites e aplicativos, as avaliações de segurança de LLMs/IA apresentam desafios completamente distintos que as equipes de segurança precisam endereçar com urgência.

Como essas duas disciplinas se diferenciam?

Neste blog, vamos detalhar as principais diferenças entre elas — desde as superfícies de ataque e metodologias até as técnicas de exploração e os impactos potenciais. Esta análise foi desenvolvida pela nossa Lead Striker, Yesenia Trejo, especialista em segurança ofensiva e IA.

O que está sendo testado?

A primeira grande diferença entre o pentesting web e o pentesting de LLM está na superfície de ataque.

Para um site ou aplicativo tradicional, o foco recai sobre componentes técnicos como:

APIs
Bancos de dados
Mecanismos de autenticação
Formulários de entrada
Sessões de usuário

O objetivo é direto: identificar vulnerabilidades comuns como injeções SQL, XSS ou CSRF que possam comprometer o sistema.

Já as avaliações de segurança de LLMs focam em uma superfície completamente diferente:

A API do modelo
Os prompts ou instruções recebidos
Os dados de treinamento utilizados
O conteúdo gerado nas respostas
Comandos do sistema que possam estar ocultos

Aqui, as falhas não estão necessariamente no código em si, mas no comportamento do modelo, na exposição de dados sensíveis ou em como ele reage a entradas manipuladas.

Objetivos do atacante

Embora ambos os tipos de pentesting tenham como meta identificar vulnerabilidades, o “o quê” e o “como” variam bastante.

No pentesting web, os objetivos típicos incluem:

Encontrar falhas técnicas exploráveis
Escalar privilégios
Obter acesso não autorizado a sistemas internos

No pentesting de LLM/IA, os objetivos do atacante podem ser:

Injetar instruções maliciosas via prompts
Extrair informações confidenciais que o modelo aprendeu
Manipular vieses ou influenciar a saída do modelo
Contornar controles de segurança impostos pelo provedor

Técnicas de exploração

Os métodos de ataque também se adaptam ao alvo.

Para sites:

Fuzzing
Exploração de CVEs conhecidos
Sequestro de sessões
Escalonamento de privilégios

Para LLMs/IA:

Prompts adversariais (desenvolvidos para burlar restrições)
Ataques de jailbreak (desbloqueando funcionalidades ocultas)
Injeções indiretas de prompts
Manipulação de ajustes finos ou dados de treinamento
Ataques ao protocolo de controle do modelo (MCP), entre outros

Essas técnicas não buscam “quebrar” o modelo, mas fazê-lo agir de maneiras indevidas: vazando dados, gerando desinformação ou executando ações não autorizadas.

E se o ataque for bem-sucedido?

Os impactos também refletem a natureza diferente desses sistemas.

Para sites:

Acesso não autorizado
Vazamentos de dados
Defacements
Comprometimento total do servidor

Para LLMs/IA:

Vazamento de informações sensíveis (como dados aprendidos em sessões anteriores)
Geração de conteúdo falso ou enviesado
Violações de conformidade (expondo dados protegidos)
Comportamento ético questionável por parte do modelo
Possíveis backdoors na cadeia de suprimentos via dados de treinamento comprometidos

Este último ponto é especialmente preocupante: um modelo mal treinado ou comprometido pode se tornar uma ameaça para toda a organização.

Como cada um é testado?

O pentesting web é amparado por padrões bem estabelecidos, como:

OWASP Testing Guide
OWASP Top 10
PTES
NIST

Para LLMs/IA, ainda não existe uma metodologia globalmente reconhecida. No entanto, frameworks emergentes como o OWASP Top 10 para LLMs começam a identificar ameaças específicas, como injeção de prompts e exposição de dados por saídas mal filtradas.

Na Strike, combinamos esses frameworks emergentes com técnicas proprietárias desenvolvidas por nossa equipe de pesquisa. Testamos modelos líderes de IA como ChatGPT, DeepSeek e Ngrok, e participamos ativamente de programas de bug bounty para divulgar de forma responsável as vulnerabilidades que encontramos.

Um campo em rápida evolução

Diferentemente do pentesting web — onde muitas ameaças já são bem documentadas —, a segurança de modelos de linguagem é um campo mais novo e dinâmico. Exige não apenas expertise técnica, mas também um entendimento profundo do comportamento desses modelos, suas limitações e os riscos relacionados ao treinamento e uso.

É por isso que, na Strike, aplicamos técnicas internas de evasão e jailbreak, mantidas em sigilo para garantir sua eficácia. Nossa missão é estar na vanguarda da pesquisa nessa área e oferecer aos nossos clientes proteção real em um cenário de ameaças que está em constante mudança.