A ascensão da inteligência artificial trouxe avanços impressionantes, mas também abriu portas para novos vetores de ataque. Uma das mudanças mais notáveis que estamos observando é o surgimento de uma nova superfície de testes: os modelos de linguagem (LLMs). Diferentemente do pentesting tradicional, realizado em sites e aplicativos, as avaliações de segurança de LLMs/IA apresentam desafios completamente distintos que as equipes de segurança precisam endereçar com urgência.
Neste blog, vamos detalhar as principais diferenças entre elas — desde as superfícies de ataque e metodologias até as técnicas de exploração e os impactos potenciais. Esta análise foi desenvolvida pela nossa Lead Striker, Yesenia Trejo, especialista em segurança ofensiva e IA.
A primeira grande diferença entre o pentesting web e o pentesting de LLM está na superfície de ataque.
Para um site ou aplicativo tradicional, o foco recai sobre componentes técnicos como:
O objetivo é direto: identificar vulnerabilidades comuns como injeções SQL, XSS ou CSRF que possam comprometer o sistema.
Já as avaliações de segurança de LLMs focam em uma superfície completamente diferente:
Aqui, as falhas não estão necessariamente no código em si, mas no comportamento do modelo, na exposição de dados sensíveis ou em como ele reage a entradas manipuladas.
Embora ambos os tipos de pentesting tenham como meta identificar vulnerabilidades, o “o quê” e o “como” variam bastante.
No pentesting web, os objetivos típicos incluem:
No pentesting de LLM/IA, os objetivos do atacante podem ser:
Os métodos de ataque também se adaptam ao alvo.
Para sites:
Para LLMs/IA:
Essas técnicas não buscam “quebrar” o modelo, mas fazê-lo agir de maneiras indevidas: vazando dados, gerando desinformação ou executando ações não autorizadas.
Os impactos também refletem a natureza diferente desses sistemas.
Para sites:
Para LLMs/IA:
Este último ponto é especialmente preocupante: um modelo mal treinado ou comprometido pode se tornar uma ameaça para toda a organização.
O pentesting web é amparado por padrões bem estabelecidos, como:
Para LLMs/IA, ainda não existe uma metodologia globalmente reconhecida. No entanto, frameworks emergentes como o OWASP Top 10 para LLMs começam a identificar ameaças específicas, como injeção de prompts e exposição de dados por saídas mal filtradas.
Na Strike, combinamos esses frameworks emergentes com técnicas proprietárias desenvolvidas por nossa equipe de pesquisa. Testamos modelos líderes de IA como ChatGPT, DeepSeek e Ngrok, e participamos ativamente de programas de bug bounty para divulgar de forma responsável as vulnerabilidades que encontramos.
Diferentemente do pentesting web — onde muitas ameaças já são bem documentadas —, a segurança de modelos de linguagem é um campo mais novo e dinâmico. Exige não apenas expertise técnica, mas também um entendimento profundo do comportamento desses modelos, suas limitações e os riscos relacionados ao treinamento e uso.
É por isso que, na Strike, aplicamos técnicas internas de evasão e jailbreak, mantidas em sigilo para garantir sua eficácia. Nossa missão é estar na vanguarda da pesquisa nessa área e oferecer aos nossos clientes proteção real em um cenário de ameaças que está em constante mudança.