Close Menu
    Facebook X (Twitter) Instagram
    Facebook X (Twitter) Instagram YouTube TikTok
    SantoTechSantoTech
    PODCAST
    • Início
      • Notícias
    • Colunistas
    • Editais
    • Startups
    • Eventos
    • Dicas
    • Vagas e jobs
    • Vídeos
    SantoTechSantoTech
    Home»Notícias»Anthropic diz que a maioria dos modelos de IA, não apenas Claude, recorrerá à chantagem

    Anthropic diz que a maioria dos modelos de IA, não apenas Claude, recorrerá à chantagem

    Notícias 21/06/2025Redação SantotechPor Redação SantotechAtualizado em: 21/06/20252 minutos de leitura
    Creditos: Getty Images
    gettyimages 1888972727

    Várias semanas após a Anthropic divulgar uma pesquisa alegando que seu modelo de IA Claude Opus 4 recorreu à chantagem de engenheiros que tentaram desligar o modelo em cenários de testes controlados, a empresa lançou uma nova pesquisa sugerindo que o problema é mais disseminado entre os principais modelos de IA.

    Na sexta-feira, a Anthropic publicou uma nova pesquisa de segurança testando 16 modelos de IA líderes da OpenAI, Google, xAI, DeepSeek e Meta. Em um ambiente simulado e controlado, a Anthropic testou cada modelo de IA individualmente, o que lhe deu amplo acesso aos e-mails de uma empresa fictícia e a capacidade de enviar e-mails sem aprovação humana.

    No entanto, nem todos os modelos de IA recorreram a comportamentos prejudiciais com tanta frequência.

    Leia também

    • Adaptar games ou adaptar-se às adaptações?
    • Rodadas de investimento em startups caem pela metade em janeiro
    • Llama.cpp exposto na internet: configuração pode abrir brechas graves de segurança em sistemas de IA

    Em um apêndice à sua pesquisa, a Anthropic diz que excluiu os modelos de IA de raciocínio o3 e o4-mini da OpenAI dos principais resultados “após descobrir que eles frequentemente interpretavam mal o cenário imediato”. A Anthropic diz que os modelos de raciocínio da OpenAI não entendiam que estavam agindo como IAs autônomas no teste e frequentemente criavam regulamentações e requisitos de revisão falsos.

    Em alguns casos, os pesquisadores da Anthropic afirmam que foi impossível distinguir se o3 e o4-mini estavam alucinando ou mentindo intencionalmente para atingir seus objetivos. A OpenAI já havia observado que o3 e o4-mini apresentam uma taxa de alucinações maior do que seus modelos de raciocínio de IA anteriores.

    Ao apresentar um cenário adaptado para abordar essas questões, a Anthropic constatou que a o3 chantageou 9% das vezes, enquanto a o4-mini chantageou apenas 1%. Essa pontuação significativamente menor pode ser atribuída à técnica de alinhamento deliberativo da OpenAI , na qual os modelos de raciocínio da empresa consideram as práticas de segurança da OpenAI antes de responder.

    Outro modelo de IA testado pela Anthropic, o Llama 4 Maverick da Meta, também não recorreu à chantagem. Quando recebeu um cenário personalizado e adaptado, a Anthropic conseguiu fazer com que o Llama 4 Maverick agisse como chantageador em 12% das vezes.

    A Anthropic afirma que esta pesquisa destaca a importância da transparência ao testar futuros modelos de IA, especialmente aqueles com capacidades de agente. Embora a Anthropic tenha tentado deliberadamente invocar chantagem neste experimento, a empresa afirma que comportamentos prejudiciais como esse podem surgir no mundo real se medidas proativas não forem tomadas.

    FONTE: Techcrunch

    Link para o canal de noticias no whatsappp

    Anthropic Claude. Deepseek IA meta segurança em IA
    Compartilhar. Facebook Twitter Pinterest LinkedIn Email Telegram WhatsApp Copiar link
    Redação Santotech
    • Website

    Notícias relacionadas

    14/02/2026

    Adaptar games ou adaptar-se às adaptações?

    10/02/2026

    Rodadas de investimento em startups caem pela metade em janeiro

    10/02/2026

    Llama.cpp exposto na internet: configuração pode abrir brechas graves de segurança em sistemas de IA

    Siga nas redes
    • Facebook
    • Twitter
    • Instagram
    • YouTube
    • TikTok
    gobeejobs banner 300x250 santotech
    Em Destaque

    Rodadas de investimento em startups caem pela metade em janeiro

    Bolsas internacionais para pós-graduação: Paraíba Sem Fronteiras abre novos editais com 25 vagas

    Governo da Paraíba oferta vagas remanescentes do Projeto Limite do Visível no campus da UEPB em Patos

    Fundação Cargill abre Chamada Semeia 2026 para apoiar projetos socioambientais com até R$ 150 mil

    Sobre nós
    Sobre nós

    Somos um portal de notícias desenvolvido com o propósito de mostrar a tecnologia, inovação, gestão, empreendedorismo e economia criativa para nosso estado, região, país e mundo.

    Fale Conosco: [email protected]
    Redação: +55 83 987931523

    Facebook X (Twitter) Instagram YouTube TikTok
    Últimas Noticias

    Adaptar games ou adaptar-se às adaptações?

    Rodadas de investimento em startups caem pela metade em janeiro

    Llama.cpp exposto na internet: configuração pode abrir brechas graves de segurança em sistemas de IA

    coloque sua marca aqui 300x250
    © 2026 Santo Tech. por NIBWOZ.
    • Início
    • Colunistas
    • Editais
    • Startups
    • Eventos
    • Dicas
    • Vagas e jobs

    Digite o que busca acima e tecle Enter para procurar ou tecle Esc para cancelar.