Close Menu
    Facebook X (Twitter) Instagram
    Facebook X (Twitter) Instagram YouTube TikTok
    SantoTechSantoTech
    PODCAST
    • Início
      • Notícias
    • Colunistas
    • Editais
    • Startups
    • Eventos
    • Dicas
    • Vagas e jobs
    SantoTechSantoTech
    Home»Notícias»Anthropic diz que a maioria dos modelos de IA, não apenas Claude, recorrerá à chantagem

    Anthropic diz que a maioria dos modelos de IA, não apenas Claude, recorrerá à chantagem

    Notícias 21/06/2025Redação SantotechPor Redação SantotechAtualizado em: 21/06/20252 minutos de leitura
    Creditos: Getty Images
    gettyimages 1888972727
    ads

    Várias semanas após a Anthropic divulgar uma pesquisa alegando que seu modelo de IA Claude Opus 4 recorreu à chantagem de engenheiros que tentaram desligar o modelo em cenários de testes controlados, a empresa lançou uma nova pesquisa sugerindo que o problema é mais disseminado entre os principais modelos de IA.

    Na sexta-feira, a Anthropic publicou uma nova pesquisa de segurança testando 16 modelos de IA líderes da OpenAI, Google, xAI, DeepSeek e Meta. Em um ambiente simulado e controlado, a Anthropic testou cada modelo de IA individualmente, o que lhe deu amplo acesso aos e-mails de uma empresa fictícia e a capacidade de enviar e-mails sem aprovação humana.

    No entanto, nem todos os modelos de IA recorreram a comportamentos prejudiciais com tanta frequência.

    Leia também

    • Populares extensões do Chrome e do Edge eram na verdade malware escondido
    • A Maior Tecnologia do Mundo: Conexões Humanas que Transformam Ecossistemas
    • EMPRESAS PARAIBANAS RECEBEM SELO GPTW EM EVENTO NA FECOMERCIO EM JOÃO PESSOA

    Em um apêndice à sua pesquisa, a Anthropic diz que excluiu os modelos de IA de raciocínio o3 e o4-mini da OpenAI dos principais resultados “após descobrir que eles frequentemente interpretavam mal o cenário imediato”. A Anthropic diz que os modelos de raciocínio da OpenAI não entendiam que estavam agindo como IAs autônomas no teste e frequentemente criavam regulamentações e requisitos de revisão falsos.

    Em alguns casos, os pesquisadores da Anthropic afirmam que foi impossível distinguir se o3 e o4-mini estavam alucinando ou mentindo intencionalmente para atingir seus objetivos. A OpenAI já havia observado que o3 e o4-mini apresentam uma taxa de alucinações maior do que seus modelos de raciocínio de IA anteriores.

    Ao apresentar um cenário adaptado para abordar essas questões, a Anthropic constatou que a o3 chantageou 9% das vezes, enquanto a o4-mini chantageou apenas 1%. Essa pontuação significativamente menor pode ser atribuída à técnica de alinhamento deliberativo da OpenAI , na qual os modelos de raciocínio da empresa consideram as práticas de segurança da OpenAI antes de responder.

    Outro modelo de IA testado pela Anthropic, o Llama 4 Maverick da Meta, também não recorreu à chantagem. Quando recebeu um cenário personalizado e adaptado, a Anthropic conseguiu fazer com que o Llama 4 Maverick agisse como chantageador em 12% das vezes.

    A Anthropic afirma que esta pesquisa destaca a importância da transparência ao testar futuros modelos de IA, especialmente aqueles com capacidades de agente. Embora a Anthropic tenha tentado deliberadamente invocar chantagem neste experimento, a empresa afirma que comportamentos prejudiciais como esse podem surgir no mundo real se medidas proativas não forem tomadas.

    FONTE: Techcrunch

    Anthropic Claude. Deepseek IA meta segurança em IA
    Compartilhar. Facebook Twitter Pinterest LinkedIn Email Telegram WhatsApp Copiar link
    Redação Santotech
    • Website

    ads

    Notícias relacionadas

    15/07/2025

    Populares extensões do Chrome e do Edge eram na verdade malware escondido

    15/07/2025

    EMPRESAS PARAIBANAS RECEBEM SELO GPTW EM EVENTO NA FECOMERCIO EM JOÃO PESSOA

    15/07/2025

    Alek Maracajá é semifinalista do Prêmio Jabuti Acadêmico com o livro Brasil Digital

    Siga nas redes
    • Facebook
    • Twitter
    • Instagram
    • YouTube
    • TikTok
    coloque sua marca aqui 300x250
    Em Destaque

    Populares extensões do Chrome e do Edge eram na verdade malware escondido

    EMPRESAS PARAIBANAS RECEBEM SELO GPTW EM EVENTO NA FECOMERCIO EM JOÃO PESSOA

    Alek Maracajá é semifinalista do Prêmio Jabuti Acadêmico com o livro Brasil Digital

    Após o YouTube, a Meta anuncia repressão ao conteúdo “não original” do Facebook

    Sobre nós
    Sobre nós

    Somos um portal de tecnologia desenvolvido com o propósito de mostrar a nossa tecnologia para
    Nosso estado, região, pais e Mundo.

    Fale Conosco: [email protected]
    Redação: +55 83 987931523

    Facebook X (Twitter) Instagram YouTube TikTok
    Últimas Noticias

    Populares extensões do Chrome e do Edge eram na verdade malware escondido

    A Maior Tecnologia do Mundo: Conexões Humanas que Transformam Ecossistemas

    EMPRESAS PARAIBANAS RECEBEM SELO GPTW EM EVENTO NA FECOMERCIO EM JOÃO PESSOA

    coloque sua marca aqui 300x250
    © 2025 Santo Tech. por NIBWOZ.
    • Início
    • Colunistas
    • Editais
    • Startups
    • Eventos
    • Dicas
    • Vagas e jobs

    Digite o que busca acima e tecle Enter para procurar ou tecle Esc para cancelar.