Anthropic diz que a maioria dos modelos de IA, não apenas Claude, recorrerá à chantagem

Várias semanas após a Anthropic divulgar uma pesquisa alegando que seu modelo de IA Claude Opus 4 recorreu à chantagem de engenheiros que tentaram desligar o modelo em cenários de testes controlados, a empresa lançou uma nova pesquisa sugerindo que o problema é mais disseminado entre os principais modelos de IA.

Na sexta-feira, a Anthropic publicou uma nova pesquisa de segurança testando 16 modelos de IA líderes da OpenAI, Google, xAI, DeepSeek e Meta. Em um ambiente simulado e controlado, a Anthropic testou cada modelo de IA individualmente, o que lhe deu amplo acesso aos e-mails de uma empresa fictícia e a capacidade de enviar e-mails sem aprovação humana.

No entanto, nem todos os modelos de IA recorreram a comportamentos prejudiciais com tanta frequência.

Leia também

Em um apêndice à sua pesquisa, a Anthropic diz que excluiu os modelos de IA de raciocínio o3 e o4-mini da OpenAI dos principais resultados “após descobrir que eles frequentemente interpretavam mal o cenário imediato”. A Anthropic diz que os modelos de raciocínio da OpenAI não entendiam que estavam agindo como IAs autônomas no teste e frequentemente criavam regulamentações e requisitos de revisão falsos.

Em alguns casos, os pesquisadores da Anthropic afirmam que foi impossível distinguir se o3 e o4-mini estavam alucinando ou mentindo intencionalmente para atingir seus objetivos. A OpenAI já havia observado que o3 e o4-mini apresentam uma taxa de alucinações maior do que seus modelos de raciocínio de IA anteriores.

Ao apresentar um cenário adaptado para abordar essas questões, a Anthropic constatou que a o3 chantageou 9% das vezes, enquanto a o4-mini chantageou apenas 1%. Essa pontuação significativamente menor pode ser atribuída à técnica de alinhamento deliberativo da OpenAI , na qual os modelos de raciocínio da empresa consideram as práticas de segurança da OpenAI antes de responder.

Outro modelo de IA testado pela Anthropic, o Llama 4 Maverick da Meta, também não recorreu à chantagem. Quando recebeu um cenário personalizado e adaptado, a Anthropic conseguiu fazer com que o Llama 4 Maverick agisse como chantageador em 12% das vezes.

A Anthropic afirma que esta pesquisa destaca a importância da transparência ao testar futuros modelos de IA, especialmente aqueles com capacidades de agente. Embora a Anthropic tenha tentado deliberadamente invocar chantagem neste experimento, a empresa afirma que comportamentos prejudiciais como esse podem surgir no mundo real se medidas proativas não forem tomadas.

FONTE: Techcrunch

Anthropic diz que a maioria dos modelos de IA, não apenas Claude, recorrerá à chantagem

Gemini 3 Pro cria superfície de ataque profunda e invisível

ChatGPT lança chats em grupo globalmente

Diretor-geral da Kaspersky diz que uso indiscriminado de IA pode levar a vazamentos em massa.

Gemini 3 Pro cria superfície de ataque profunda e invisível

ChatGPT lança chats em grupo globalmente

Diretor-geral da Kaspersky diz que uso indiscriminado de IA pode levar a vazamentos em massa.

TEDx João Pessoa celebra uma década com edição especial “Futuros do Presente”

Últimas Noticias

Gemini 3 Pro cria superfície de ataque profunda e invisível

ChatGPT lança chats em grupo globalmente

Diretor-geral da Kaspersky diz que uso indiscriminado de IA pode levar a vazamentos em massa.

Anthropic diz que a maioria dos modelos de IA, não apenas Claude, recorrerá à chantagem

Notícias relacionadas