LLMs sob ataque: o novo alvo da cibersegurança

2 minutes

min read

July 23, 2025

O uso de modelos de linguagem de grande escala (LLMs) e sistemas generativos está se expandindo em diversos setores. De chatbots de atendimento a copilotos internos e motores de decisão, essas tecnologias processam dados sensíveis, operam funções críticas e influenciam decisões humanas. Isso as torna alvos altamente atrativos para atacantes.

Ao contrário do software tradicional, os LLMs são projetados para receber e gerar texto sem filtros rígidos. Isso cria uma nova superfície de ataque que muitas equipes ainda não sabem como defender. Se sua organização está desenvolvendo ou integrando modelos de IA, entender os riscos de segurança cibernética é fundamental. A seguir, explicamos por que esses sistemas são vulneráveis, como estão sendo explorados e o que fazer para protegê-los de forma proativa.

Riscos reais: uso indevido e desalinhamento

Um dos vetores de ataque mais subestimados é o uso indevido do modelo. Sem controles rigorosos, os LLMs podem ser manipulados para agir de forma inesperada — ou até prejudicial.

Alguns exemplos de uso indevido incluem:

Reversão de instruções: induzir um assistente a ignorar proteções por meio de reformulações criativas no prompt.
Falsificação de identidade: gerar mensagens que imitam comunicações internas ou fontes confiáveis.
Branqueamento de conteúdo malicioso: usar o modelo para reformular mensagens nocivas e driblar mecanismos de detecção.

O desalinhamento do modelo adiciona outra camada de risco. Mesmo com treinamento adequado, o comportamento real pode divergir das expectativas de segurança da organização — especialmente em casos como: agentes autônomos, assistentes que tomam decisões, setores regulados (como finanças, saúde ou jurídico).

Quando o uso indevido se combina com desalinhamento, um atacante pode transformar seu modelo em uma arma — sem acionar nenhum alerta.

Injeções de prompt: a “nova injeção” do século XXI

A injeção de prompt é hoje uma das ameaças mais urgentes na segurança de IA. Assim como a injeção SQL em aplicativos tradicionais, esse ataque manipula a linguagem natural para sobrescrever instruções internas do modelo.

Existem dois tipos principais:

Injeção direta: o atacante insere comandos maliciosos diretamente no prompt, disfarçando-os como entradas legítimas.
Injeção indireta: instruções maliciosas são escondidas em conteúdo externo (como uma página da web, e-mail ou código), que depois é interpretado pelo modelo.

Esses ataques podem resultar em:

vazamento de dados sensíveis do treinamento,
comportamentos inesperados de agentes autônomos,
manipulação de respostas e decisões,
perda de confiança em sistemas baseados em IA.

Se seu assistente de IA consome dados externos, escaneia e-mails ou atua em múltiplos domínios, mitigar esse risco deve ser prioridade.

De reativo a proativo: como construir uma IA segura

A segurança reativa não funciona com IA. Aqui, o comportamento do modelo — não apenas o código — é o que define as vulnerabilidades. Por isso, a segurança precisa estar presente desde o design, e não ser um remendo pós-produção.

Como adotar uma abordagem proativa?

Modelagem de ameaças para IA: antecipe casos de uso indevido, prompts perigosos e limitações de confiança já na fase de desenvolvimento. Pense como um atacante.
Guardrails e políticas rígidas: filtre prompts, valide saídas e controle o contexto. Nunca permita que o modelo consuma entradas externas sem validação.
Red teaming e testes adversariais contínuos: submeta seus modelos a testes de injeção, jailbreak e desalinhamento regularmente.
Minimização de dados e controle de acesso: restrinja o acesso a dados sensíveis e separe lógicas críticas das interações com o modelo.
Detecção automática de vulnerabilidades: implemente ferramentas especializadas para testar e monitorar riscos específicos de IA — como faz a Strike com seus serviços de pentest contínuo.

O que vem a seguir para a segurança em IA?

À medida que os LLMs se tornam mais poderosos e são integrados a operações essenciais, novas formas de exploração continuarão surgindo. Mas você não precisa esperar por um incidente para agir.

Na Strike, ajudamos equipes de segurança a se antecipar às ameaças de cibersegurança em IA com testes contínuos, hacking ético e simulações ofensivas desenvolvidas especialmente para modelos de linguagem. Seja você responsável pela criação de modelos internos ou integrando soluções de terceiros, lembre-se: a segurança deve fazer parte do design, não ser um remendo de última hora.

LLMs sob ataque: o novo alvo da cibersegurança

Riscos reais: uso indevido e desalinhamento

Injeções de prompt: a “nova injeção” do século XXI

De reativo a proativo: como construir uma IA segura

O que vem a seguir para a segurança em IA?

Subscribe to our newsletter and get our latest features and exclusive news.