Close Menu
    Facebook X (Twitter) Instagram
    Facebook X (Twitter) Instagram YouTube TikTok
    SantoTechSantoTech
    PODCAST
    • Início
      • Notícias
    • Colunistas
    • Editais
    • Startups
    • Eventos
    • Dicas
    • Vagas e jobs
    • Vídeos
    SantoTechSantoTech
    Home»Notícias»Anthropic diz que a maioria dos modelos de IA, não apenas Claude, recorrerá à chantagem

    Anthropic diz que a maioria dos modelos de IA, não apenas Claude, recorrerá à chantagem

    Notícias 21/06/2025Redação SantotechPor Redação SantotechAtualizado em: 21/06/20252 minutos de leitura
    Creditos: Getty Images
    gettyimages 1888972727

    Várias semanas após a Anthropic divulgar uma pesquisa alegando que seu modelo de IA Claude Opus 4 recorreu à chantagem de engenheiros que tentaram desligar o modelo em cenários de testes controlados, a empresa lançou uma nova pesquisa sugerindo que o problema é mais disseminado entre os principais modelos de IA.

    Na sexta-feira, a Anthropic publicou uma nova pesquisa de segurança testando 16 modelos de IA líderes da OpenAI, Google, xAI, DeepSeek e Meta. Em um ambiente simulado e controlado, a Anthropic testou cada modelo de IA individualmente, o que lhe deu amplo acesso aos e-mails de uma empresa fictícia e a capacidade de enviar e-mails sem aprovação humana.

    No entanto, nem todos os modelos de IA recorreram a comportamentos prejudiciais com tanta frequência.

    Leia também

    • Economia Criativa 2026: Brasil e Paraíba se preparam para novo ciclo de desenvolvimento
    • Microsoft anuncia excesso de novos data centers, mas diz que não vai deixar sua conta de eletricidade subir
    • O varejo online brasileiro é o novo “quintal” da Ásia

    Em um apêndice à sua pesquisa, a Anthropic diz que excluiu os modelos de IA de raciocínio o3 e o4-mini da OpenAI dos principais resultados “após descobrir que eles frequentemente interpretavam mal o cenário imediato”. A Anthropic diz que os modelos de raciocínio da OpenAI não entendiam que estavam agindo como IAs autônomas no teste e frequentemente criavam regulamentações e requisitos de revisão falsos.

    Em alguns casos, os pesquisadores da Anthropic afirmam que foi impossível distinguir se o3 e o4-mini estavam alucinando ou mentindo intencionalmente para atingir seus objetivos. A OpenAI já havia observado que o3 e o4-mini apresentam uma taxa de alucinações maior do que seus modelos de raciocínio de IA anteriores.

    Ao apresentar um cenário adaptado para abordar essas questões, a Anthropic constatou que a o3 chantageou 9% das vezes, enquanto a o4-mini chantageou apenas 1%. Essa pontuação significativamente menor pode ser atribuída à técnica de alinhamento deliberativo da OpenAI , na qual os modelos de raciocínio da empresa consideram as práticas de segurança da OpenAI antes de responder.

    Outro modelo de IA testado pela Anthropic, o Llama 4 Maverick da Meta, também não recorreu à chantagem. Quando recebeu um cenário personalizado e adaptado, a Anthropic conseguiu fazer com que o Llama 4 Maverick agisse como chantageador em 12% das vezes.

    A Anthropic afirma que esta pesquisa destaca a importância da transparência ao testar futuros modelos de IA, especialmente aqueles com capacidades de agente. Embora a Anthropic tenha tentado deliberadamente invocar chantagem neste experimento, a empresa afirma que comportamentos prejudiciais como esse podem surgir no mundo real se medidas proativas não forem tomadas.

    FONTE: Techcrunch

    Link para o canal de noticias no whatsappp

    Anthropic Claude. Deepseek IA meta segurança em IA
    Compartilhar. Facebook Twitter Pinterest LinkedIn Email Telegram WhatsApp Copiar link
    Redação Santotech
    • Website

    Notícias relacionadas

    14/01/2026

    Economia Criativa 2026: Brasil e Paraíba se preparam para novo ciclo de desenvolvimento

    13/01/2026

    Microsoft anuncia excesso de novos data centers, mas diz que não vai deixar sua conta de eletricidade subir

    13/01/2026

    O varejo online brasileiro é o novo “quintal” da Ásia

    Siga nas redes
    • Facebook
    • Twitter
    • Instagram
    • YouTube
    • TikTok
    gobeejobs banner 300x250 santotech
    Em Destaque

    Microsoft anuncia excesso de novos data centers, mas diz que não vai deixar sua conta de eletricidade subir

    O varejo online brasileiro é o novo “quintal” da Ásia

    TEDx, World Creativity Day e Startup Weekend: plataformas indispensáveis para ecossistemas

    Encontro com empresários apresenta o Programa Nacional de Aprendizado em Tecnologia

    Sobre nós
    Sobre nós

    Somos um portal de tecnologia desenvolvido com o propósito de mostrar a nossa tecnologia para
    Nosso estado, região, pais e Mundo.

    Fale Conosco: [email protected]
    Redação: +55 83 987931523

    Facebook X (Twitter) Instagram YouTube TikTok
    Últimas Noticias

    Economia Criativa 2026: Brasil e Paraíba se preparam para novo ciclo de desenvolvimento

    Microsoft anuncia excesso de novos data centers, mas diz que não vai deixar sua conta de eletricidade subir

    O varejo online brasileiro é o novo “quintal” da Ásia

    coloque sua marca aqui 300x250
    © 2026 Santo Tech. por NIBWOZ.
    • Início
    • Colunistas
    • Editais
    • Startups
    • Eventos
    • Dicas
    • Vagas e jobs

    Digite o que busca acima e tecle Enter para procurar ou tecle Esc para cancelar.