
A OpenAI lançou na segunda-feira uma nova família de modelos chamada GPT-4.1. Sim, “4.1” – como se a nomenclatura da empresa já não estivesse confusa o suficiente.
Há GPT-4.1, GPT-4.1 mini e GPT-4.1 nano, todos os quais a OpenAI diz “excel” na codificação e instrução seguindo. Disponível através da API da OpenAI, mas não do ChatGPT, os modelos multimodais têm uma janela de contexto de 1 milhão de tokens, o que significa que podem absorver cerca de 750.000 palavras de uma só vez (mais do que “Guerra e Paz”).
O GPT-4.1 chega à medida que rivais da OpenAI, como Google e Anthropic, aumentam os esforços para construir modelos de programação sofisticados. O recém-lançado Gemini 2.5 Pro, que também tem uma janela de contexto de 1 milhão de tokens, é altamente classificado em benchmarks de codificação populares. Assim como o Claude 3.7 Sonnet da Anthropic e a startup chinesa de IA DeepSeek foi atualizada para V3.
É o objetivo de muitos gigantes da tecnologia, incluindo a OpenAI, treinar modelos de codificação de IA capazes de realizar tarefas complexas de engenharia de software. A grande ambição da OpenAI é criar uma “agente de IA engenheira”, como disse a CFO Sarah Friar durante uma cúpula de tecnologia em Londres no mês passado. A empresa afirma que seus modelos futuros poderão programar aplicativos inteiros de ponta a ponta, lidando com aspectos como garantia de qualidade, teste de bugs e redação de documentação.
O GPT-4.1 é um passo nessa direção.
“Otimizamos o GPT-4.1 para uso do mundo real com base no feedback direto para melhorar em áreas com as quais os desenvolvedores mais se preocupam: codificação frontend, fazer menos edições estranhas, seguir formatos de forma confiável, aderir à estrutura de resposta e pedidos, uso consistente de ferramentas e muito mais”, disse um porta-voz da OpenAI ao TechCrunch por e-mail. “Essas melhorias permitem que os desenvolvedores criem agentes que são consideravelmente melhores em tarefas de engenharia de software do mundo real.”
A OpenAI afirma que o modelo completo do GPT-4.1 supera seus modelos GPT-4o e GPT-4o mini em benchmarks de codificação, incluindo SWE-bench. Diz-se que o GPT-4.1 mini e o nano são mais eficientes e mais rápidos ao custo de alguma precisão, com o OpenAI dizendo que o GPT-4.1 nano é o seu modelo mais rápido e mais barato de todos os tempos.
O GPT-4.1 custa US $ 2 por milhão de tokens de entrada e US $ 8 milhões de tokens de saída. O GPT-4.1 mini é tokens de entrada de US $ 0,40 / M e tokens de saída de US $ 1,60 / M, e o GPT-4.1 nano é tokens de entrada de US $ 0,10 / M e tokens de saída de US $ 0,40 / M.
De acordo com os testes internos da OpenAI, o GPT-4.1, que pode gerar mais tokens ao mesmo tempo do que o GPT-4o (32768 versus 16.384), obteve pontuação entre 52% e 54,6% no SWE-bench Verified, um subconjunto validado por humanos do SWE-bench. (A OpenAI observou em um post no blog que algumas soluções para os problemas verificados da SWE-bench não podiam ser executadas em sua infraestrutura, daí o intervalo de pontuações.) Esses números estão ligeiramente abaixo das pontuações relatadas pelo Google e Anthropic para Gemini 2,5 Pro (63,8%) e Claude 3,7 Sonnet (62,3%), respectivamente, no mesmo benchmark.
Em uma avaliação separada, o OpenAI investigou o GPT-4.1 usando o Video-MME, que é projetado para medir a capacidade de um modelo de “entender” o conteúdo em vídeos. O GPT-4.1 atingiu uma precisão de 72% no topo do gráfico na categoria de vídeo “longo, sem legendas”, afirma OpenAI.
Embora o GPT-4.1 tenha uma pontuação razoavelmente boa em benchmarks e tenha um “corte de conhecimento” mais recente, dando-lhe um melhor quadro de referência para os eventos atuais (até junho de 2024), é importante ter em mente que mesmo alguns dos melhores modelos hoje lutam com tarefas que não tropeçam em especialistas. Por exemplo, muitos estudos mostraram shownque os modelos geradores de código muitas vezes não conseguem corrigir e até introduzir vulnerabilidades de segurança e bugs.
A OpenAI reconhece, também, que o GPT-4.1 se torna menos confiável (ou seja, mais propensos a cometer erros) quanto mais tokens de entrada tiverem que lidar. Em um dos testes da própria empresa, o OpenAI-MRCR, a precisão do modelo diminuiu de cerca de 84%, com 8.000 tokens para 50%, com 1 milhão de tokens. O GPT-4.1 também tende a ser mais “literal” do que o GPT-4o, diz a empresa, às vezes necessitando de prompts mais específicos e explícitos.
fonte: TechCrunch
