Close Menu
    Facebook X (Twitter) Instagram
    Facebook X (Twitter) Instagram YouTube TikTok
    SantoTechSantoTech
    PODCAST
    • Início
      • Notícias
    • Colunistas
    • Editais
    • Startups
    • Eventos
    • Dicas
    • Vagas e jobs
    SantoTechSantoTech
    Home»Notícias»Anthropic diz que a maioria dos modelos de IA, não apenas Claude, recorrerá à chantagem

    Anthropic diz que a maioria dos modelos de IA, não apenas Claude, recorrerá à chantagem

    Notícias 21/06/2025Redação SantotechPor Redação SantotechAtualizado em: 21/06/20252 minutos de leitura
    Creditos: Getty Images
    gettyimages 1888972727
    ads

    Várias semanas após a Anthropic divulgar uma pesquisa alegando que seu modelo de IA Claude Opus 4 recorreu à chantagem de engenheiros que tentaram desligar o modelo em cenários de testes controlados, a empresa lançou uma nova pesquisa sugerindo que o problema é mais disseminado entre os principais modelos de IA.

    Na sexta-feira, a Anthropic publicou uma nova pesquisa de segurança testando 16 modelos de IA líderes da OpenAI, Google, xAI, DeepSeek e Meta. Em um ambiente simulado e controlado, a Anthropic testou cada modelo de IA individualmente, o que lhe deu amplo acesso aos e-mails de uma empresa fictícia e a capacidade de enviar e-mails sem aprovação humana.

    No entanto, nem todos os modelos de IA recorreram a comportamentos prejudiciais com tanta frequência.

    Leia também

    • Paraíba terá sede em hub digital de Portugal e firma parceria internacional
    • CDL Sousa e Go Beesiness firmam parceria para impulsionar o desenvolvimento econômico e a qualificação profissional no Alto Sertão da Paraíba
    • Nubank demite 12 funcionários após anúncio de volta ao escritório e sofre pressão de sindicato por possíveis retaliações

    Em um apêndice à sua pesquisa, a Anthropic diz que excluiu os modelos de IA de raciocínio o3 e o4-mini da OpenAI dos principais resultados “após descobrir que eles frequentemente interpretavam mal o cenário imediato”. A Anthropic diz que os modelos de raciocínio da OpenAI não entendiam que estavam agindo como IAs autônomas no teste e frequentemente criavam regulamentações e requisitos de revisão falsos.

    Em alguns casos, os pesquisadores da Anthropic afirmam que foi impossível distinguir se o3 e o4-mini estavam alucinando ou mentindo intencionalmente para atingir seus objetivos. A OpenAI já havia observado que o3 e o4-mini apresentam uma taxa de alucinações maior do que seus modelos de raciocínio de IA anteriores.

    Ao apresentar um cenário adaptado para abordar essas questões, a Anthropic constatou que a o3 chantageou 9% das vezes, enquanto a o4-mini chantageou apenas 1%. Essa pontuação significativamente menor pode ser atribuída à técnica de alinhamento deliberativo da OpenAI , na qual os modelos de raciocínio da empresa consideram as práticas de segurança da OpenAI antes de responder.

    Outro modelo de IA testado pela Anthropic, o Llama 4 Maverick da Meta, também não recorreu à chantagem. Quando recebeu um cenário personalizado e adaptado, a Anthropic conseguiu fazer com que o Llama 4 Maverick agisse como chantageador em 12% das vezes.

    A Anthropic afirma que esta pesquisa destaca a importância da transparência ao testar futuros modelos de IA, especialmente aqueles com capacidades de agente. Embora a Anthropic tenha tentado deliberadamente invocar chantagem neste experimento, a empresa afirma que comportamentos prejudiciais como esse podem surgir no mundo real se medidas proativas não forem tomadas.

    FONTE: Techcrunch

    Link para o canal de noticias no whatsappp

    Anthropic Claude. Deepseek IA meta segurança em IA
    Compartilhar. Facebook Twitter Pinterest LinkedIn Email Telegram WhatsApp Copiar link
    Redação Santotech
    • Website

    ads

    Notícias relacionadas

    13/11/2025

    Paraíba terá sede em hub digital de Portugal e firma parceria internacional

    12/11/2025

    CDL Sousa e Go Beesiness firmam parceria para impulsionar o desenvolvimento econômico e a qualificação profissional no Alto Sertão da Paraíba

    11/11/2025

    Nubank demite 12 funcionários após anúncio de volta ao escritório e sofre pressão de sindicato por possíveis retaliações

    Siga nas redes
    • Facebook
    • Twitter
    • Instagram
    • YouTube
    • TikTok
    gobeejobs banner 300x250 santotech
    Em Destaque

    Paraíba terá sede em hub digital de Portugal e firma parceria internacional

    Nubank demite 12 funcionários após anúncio de volta ao escritório e sofre pressão de sindicato por possíveis retaliações

    OWASP Top 10 2025 traz novas categorias

    UFPB quer disseminar práticas sustentáveis em Tecnologia da Informação

    Sobre nós
    Sobre nós

    Somos um portal de tecnologia desenvolvido com o propósito de mostrar a nossa tecnologia para
    Nosso estado, região, pais e Mundo.

    Fale Conosco: [email protected]
    Redação: +55 83 987931523

    Facebook X (Twitter) Instagram YouTube TikTok
    Últimas Noticias

    Paraíba terá sede em hub digital de Portugal e firma parceria internacional

    CDL Sousa e Go Beesiness firmam parceria para impulsionar o desenvolvimento econômico e a qualificação profissional no Alto Sertão da Paraíba

    Nubank demite 12 funcionários após anúncio de volta ao escritório e sofre pressão de sindicato por possíveis retaliações

    coloque sua marca aqui 300x250
    © 2025 Santo Tech. por NIBWOZ.
    • Início
    • Colunistas
    • Editais
    • Startups
    • Eventos
    • Dicas
    • Vagas e jobs

    Digite o que busca acima e tecle Enter para procurar ou tecle Esc para cancelar.