
A OpenAI anunciou nesta terça-feira o lançamento de dois modelos de raciocínio de IA de peso aberto com recursos semelhantes à sua série. Ambos estão disponíveis gratuitamente para download da plataforma de desenvolvedores on-line Hugging Face, disse a empresa, descrevendo os modelos como “estado da arte” quando medidos em vários benchmarks para comparar modelos abertos.
Os modelos vêm em dois tamanhos: um modelo gpt-oss-120b maior e mais capaz que pode ser executado em uma única GPU Nvidia e um modelo gpt-oss-20b mais leve que pode ser executado em um laptop de consumo com 16 GB de memória.
O lançamento marca o primeiro modelo de linguagem “aberto” da OpenAI desde o GPT-2, que foi lançado há mais de cinco anos.
Em um briefing, a OpenAI disse que seus modelos abertos serão capazes de enviar consultas complexas para modelos de IA na nuvem, como o TechCrunch relatou anteriormente. Isso significa que, se o modelo aberto da OpenAI não for capaz de uma determinada tarefa, como o processamento de uma imagem, os desenvolvedores podem conectar o modelo aberto a um dos modelos fechados mais capazes da empresa.
Embora os modelos de IA de código aberto OpenAI em seus primeiros dias, a empresa geralmente favoreceu uma abordagem proprietária de desenvolvimento de código fechado. A última estratégia ajudou a OpenAI a construir uma grande empresa de vendas de acesso a seus modelos de IA por meio de uma API para empresas e desenvolvedores.
No entanto, o CEO Sam Altman disse em janeiro que acredita que a OpenAI está “do lado errado da história” quando se trata de abrir as tecnologias. A empresa enfrenta hoje a crescente pressão dos laboratórios chineses de IA – incluindo o DeepSeek, o Qwen do Alibaba, e a Moonshot AI – que desenvolveram vários dos modelos abertos mais capazes e populares do mundo. (Embora a Meta tenha dominado anteriormente o espaço aberto de IA, os modelos Llama AI da empresa ficaram para trás no ano passado.)
Em julho, o governo Trump também pediu aos EUA. Desenvolvedores de IA para abrir mais tecnologia para promover a adoção global de IA alinhada com os valores americanos.
Com o lançamento de gpt-oss, a OpenAI espera agradar tanto os desenvolvedores quanto a administração Trump, que observaram os laboratórios chineses de IA ganharem destaque no espaço de código aberto.
“Voltar quando começamos em 2015, a missão da OpenAI é garantir que a AGI beneficie toda a humanidade”, disse Altman em um comunicado compartilhado com o TechCrunch. “Para esse fim, estamos entusiasmados que o mundo esteja construindo uma pilha de IA aberta criada nos Estados Unidos, com base em valores democráticos, disponíveis gratuitamente para todos e para grande benefício.”

Como os modelos funcionam
A OpenAI teve como objetivo tornar seu modelo aberto um líder entre outros modelos de IA de peso aberto, e a empresa afirma ter feito exatamente isso.
No Codeforces (com ferramentas), um teste de codificação competitivo, gpt-oss-120b e gpt-oss-20b score 2622 e 2516, respectivamente, superando o R1 do DeepSeek enquanto apresenta o3 e o4-mini de baixo desempenho.

On Humanity’s Last Exam (HLE), um teste desafiador de perguntas de crowdsourcing em uma variedade de assuntos (com ferramentas), gpt-oss-120b e gpt-oss-20b pontua 19% e 17,3%, respectivamente. Da mesma forma, este desempenho inferior ao o3, mas supera os principais modelos abertos da DeepSeek e da Qwen.

Notavelmente, os modelos abertos da OpenAI alucinam significativamente mais do que seus mais recentes modelos de raciocínio de IA, o3 e o4-mini.
As alucinações têm se tornado mais severas nos mais recentes modelos de raciocínio de IA da OpenAI, e a empresa disse anteriormente que não entende bem o porquê. Em um white paper, a OpenAI diz que isso é “esperado, já que modelos menores têm menos conhecimento mundial do que modelos de fronteira maiores e tendem a alucinar mais”.
A OpenAI descobriu que o gpt-oss-120b e o gpt-oss-20b alucinaram em resposta a 49% e 53%, respectivamente, das perguntas sobre o PersonQA, a referência interna da empresa para medir a precisão do conhecimento de um modelo sobre as pessoas. Isso é mais do que o triplo da taxa de alucinação do modelo o1 da OpenAI, que marcou 16%, e maior que seu modelo o4-mini, que obteve 36%.
Formação dos novos modelos
A OpenAI diz que seus modelos abertos foram treinados com processos semelhantes aos de seus modelos proprietários. A empresa diz que cada modelo aberto aproveita a mistura de especialistas (MoE) para explorar menos parâmetros para qualquer questão, fazendo com que seja executado de forma mais eficiente. Para gpt-oss-120b, que tem 117 bilhões de parâmetros totais, a OpenAI diz que o modelo ativa apenas 5,1 bilhões de parâmetros por token.
A empresa também diz que seu modelo aberto foi treinado usando aprendizado de reforço (RL) de alto padrão – um processo de pós-treinamento para ensinar os modelos de IA certos de erros em ambientes simulados usando grandes clusters de GPUs Nvidia. Isso também foi usado para treinar a série de modelos da OpenAI, e os modelos abertos têm um processo de cadeia de pensamento semelhante, no qual eles levam tempo e recursos computacionais adicionais para trabalhar em suas respostas.
Como resultado do processo pós-treinamento, a OpenAI diz que seus modelos de IA abertos se destacam no fornecimento de agentes de IA e são capazes de chamar ferramentas como pesquisa na web ou execução de código Python como parte de seu processo de cadeia de pensamento. No entanto, a OpenAI diz que seus modelos abertos são apenas textuais, o que significa que eles não serão capazes de processar ou gerar imagens e áudio como os outros modelos da empresa.
O OpenAI está lançando gpt-oss-120b e gpt-oss-20b sob a licença Apache 2.0, que geralmente é considerada uma das mais permissivas. Esta licença permitirá que as empresas monetizem os modelos abertos da OpenAI sem ter que pagar ou obter permissão da empresa.
No entanto, ao contrário das ofertas de código aberto de laboratórios de IA, como a AI2, a OpenAI diz que não divulgará os dados de treinamento usados para criar seus modelos abertos. Esta decisão não é surpreendente, uma vez que vários processos ativos contra provedores de modelos de IA, incluindo a OpenAI, alegaram que essas empresas treinaram inadequadamente seus modelos de IA em trabalhos protegidos por direitos autorais.
A OpenAI atrasou o lançamento de seus modelos abertos várias vezes nos últimos meses, parcialmente para abordar as preocupações de segurança. Além das políticas de segurança típicas da empresa, a OpenAI diz em um white paper que também investigou se os maus atores poderiam ajustar seus modelos gpt-oss para serem mais úteis em ataques cibernéticos ou na criação de armas biológicas ou químicas.
Após os testes da OpenAI e de avaliadores terceirizados, a empresa diz que o gpt-oss pode aumentar marginalmente as capacidades biológicas. No entanto, não encontrou evidências de que esses modelos abertos pudessem atingir seu limite de “alta capacidade” para o perigo nesses domínios, mesmo após o ajuste fino.
Embora o modelo da OpenAI pareça estar de última geração entre os modelos abertos, os desenvolvedores aguardam ansiosamente o lançamento do DeepSeek R2, seu próximo modelo de raciocínio de IA, bem como um novo modelo aberto do Superintelligence Lab da Meta.
FONTE: TECHCRUNCH
