Close Menu
    Facebook X (Twitter) Instagram
    Facebook X (Twitter) Instagram YouTube TikTok
    SantoTechSantoTech
    PODCAST
    • Início
      • Notícias
    • Colunistas
    • Editais
    • Startups
    • Eventos
    • Dicas
    • Vagas e jobs
    • Vídeos
    SantoTechSantoTech
    Home»Notícias»Anthropic diz que a maioria dos modelos de IA, não apenas Claude, recorrerá à chantagem

    Anthropic diz que a maioria dos modelos de IA, não apenas Claude, recorrerá à chantagem

    Notícias 21/06/2025Redação SantotechPor Redação SantotechAtualizado em: 21/06/20252 minutos de leitura
    Creditos: Getty Images
    gettyimages 1888972727

    Várias semanas após a Anthropic divulgar uma pesquisa alegando que seu modelo de IA Claude Opus 4 recorreu à chantagem de engenheiros que tentaram desligar o modelo em cenários de testes controlados, a empresa lançou uma nova pesquisa sugerindo que o problema é mais disseminado entre os principais modelos de IA.

    Na sexta-feira, a Anthropic publicou uma nova pesquisa de segurança testando 16 modelos de IA líderes da OpenAI, Google, xAI, DeepSeek e Meta. Em um ambiente simulado e controlado, a Anthropic testou cada modelo de IA individualmente, o que lhe deu amplo acesso aos e-mails de uma empresa fictícia e a capacidade de enviar e-mails sem aprovação humana.

    No entanto, nem todos os modelos de IA recorreram a comportamentos prejudiciais com tanta frequência.

    Leia também

    • CERTI apresenta cases em automação, IA e soluções sustentáveis  na maior feira de tecnologia industrial do mundo  
    • VTEX DAY anuncia lançamento do Brazilian Engineering Awards e homenageia Tatiana Sampaio em edição inaugural
    • Unidade vinculada do MCTI integra novo conselho de apoio ao empreendedorismo feminino

    Em um apêndice à sua pesquisa, a Anthropic diz que excluiu os modelos de IA de raciocínio o3 e o4-mini da OpenAI dos principais resultados “após descobrir que eles frequentemente interpretavam mal o cenário imediato”. A Anthropic diz que os modelos de raciocínio da OpenAI não entendiam que estavam agindo como IAs autônomas no teste e frequentemente criavam regulamentações e requisitos de revisão falsos.

    Em alguns casos, os pesquisadores da Anthropic afirmam que foi impossível distinguir se o3 e o4-mini estavam alucinando ou mentindo intencionalmente para atingir seus objetivos. A OpenAI já havia observado que o3 e o4-mini apresentam uma taxa de alucinações maior do que seus modelos de raciocínio de IA anteriores.

    Ao apresentar um cenário adaptado para abordar essas questões, a Anthropic constatou que a o3 chantageou 9% das vezes, enquanto a o4-mini chantageou apenas 1%. Essa pontuação significativamente menor pode ser atribuída à técnica de alinhamento deliberativo da OpenAI , na qual os modelos de raciocínio da empresa consideram as práticas de segurança da OpenAI antes de responder.

    Outro modelo de IA testado pela Anthropic, o Llama 4 Maverick da Meta, também não recorreu à chantagem. Quando recebeu um cenário personalizado e adaptado, a Anthropic conseguiu fazer com que o Llama 4 Maverick agisse como chantageador em 12% das vezes.

    A Anthropic afirma que esta pesquisa destaca a importância da transparência ao testar futuros modelos de IA, especialmente aqueles com capacidades de agente. Embora a Anthropic tenha tentado deliberadamente invocar chantagem neste experimento, a empresa afirma que comportamentos prejudiciais como esse podem surgir no mundo real se medidas proativas não forem tomadas.

    FONTE: Techcrunch

    Link para o canal de noticias no whatsappp

    Anthropic Claude. Deepseek IA meta segurança em IA
    Compartilhar. Facebook Twitter Pinterest LinkedIn Email Telegram WhatsApp Copiar link
    Redação Santotech
    • Website

    Notícias relacionadas

    17/04/2026

    CERTI apresenta cases em automação, IA e soluções sustentáveis  na maior feira de tecnologia industrial do mundo  

    VTEX DAY anuncia lançamento do Brazilian Engineering Awards e homenageia Tatiana Sampaio em edição inaugural

    Sponsor: Vtex17/04/2026
    17/04/2026

    Unidade vinculada do MCTI integra novo conselho de apoio ao empreendedorismo feminino

    Siga nas redes
    • Facebook
    • Twitter
    • Instagram
    • YouTube
    • TikTok
    Em Destaque

    CERTI apresenta cases em automação, IA e soluções sustentáveis  na maior feira de tecnologia industrial do mundo  

    VTEX DAY anuncia lançamento do Brazilian Engineering Awards e homenageia Tatiana Sampaio em edição inaugural

    Sponsor: Vtex17/04/2026

    Unidade vinculada do MCTI integra novo conselho de apoio ao empreendedorismo feminino

    Anthropic lança Claude Design para criação rápida de visuais com IA

    Sobre nós
    Sobre nós

    Somos o portal de tecnologia que conecta o ecossistema inovador do Nordeste ao Brasil e ao mundo.

    Fale Conosco: [email protected]
    Redação: +55 83 987931523

    Facebook X (Twitter) Instagram YouTube TikTok
    Últimas Noticias

    CERTI apresenta cases em automação, IA e soluções sustentáveis  na maior feira de tecnologia industrial do mundo  

    VTEX DAY anuncia lançamento do Brazilian Engineering Awards e homenageia Tatiana Sampaio em edição inaugural

    Sponsor: Vtex17/04/2026

    Unidade vinculada do MCTI integra novo conselho de apoio ao empreendedorismo feminino

    coloque sua marca aqui 300x250
    © 2026 Santo Tech. por NIBWOZ.
    • Início
    • Colunistas
    • Editais
    • Startups
    • Eventos
    • Dicas
    • Vagas e jobs

    Digite o que busca acima e tecle Enter para procurar ou tecle Esc para cancelar.