A DeepSeek publicou um novo artigo científico detalhando uma abordagem mais eficiente para o desenvolvimento de inteligência artificial, reforçando os esforços da indústria chinesa para competir com gigantes globais como a OpenAI, mesmo diante das restrições impostas pelos Estados Unidos ao acesso a chips avançados da Nvidia.
O estudo, coassinado pelo fundador Liang Wenfeng, apresenta um framework chamado Manifold-Constrained Hyper-Connections. Segundo os autores, a técnica foi projetada para aumentar a escalabilidade dos modelos de IA ao mesmo tempo em que reduz significativamente os custos computacionais e o consumo de energia durante o treinamento dois dos principais gargalos da IA moderna.
Publicações técnicas da DeepSeek costumam antecipar lançamentos relevantes. Em 2024, a empresa surpreendeu o mercado com o modelo de raciocínio R1, desenvolvido a uma fração do custo de concorrentes do Vale do Silício. Desde então, a startup sediada em Hangzhou lançou versões menores de seus sistemas, mas a expectativa agora gira em torno do próximo modelo principal, informalmente chamado de R2, previsto para ser apresentado durante o Festival da Primavera, em fevereiro.
O novo artigo também evidencia como startups chinesas vêm sendo forçadas a inovar fora do padrão. Com o bloqueio ao acesso aos semicondutores mais avançados, considerados essenciais para treinar e executar modelos de IA de grande escala, pesquisadores passaram a explorar arquiteturas alternativas e métodos não convencionais. No caso da DeepSeek, isso significa repensar desde a concepção até a infraestrutura de treinamento dos modelos.
Divulgado por meio do repositório aberto arXiv e da plataforma open source Hugging Face, o estudo conta com 19 autores e aborda desafios como instabilidade no treinamento e limitações de escala. Os testes foram realizados em modelos que variam de 3 bilhões a 27 bilhões de parâmetros, com base em pesquisas anteriores da ByteDance publicadas em 2024 sobre arquiteturas de hiperconexão.
Segundo os pesquisadores, a técnica pode representar um passo importante para a evolução dos chamados modelos fundacionais, indicando que eficiência e criatividade arquitetural podem se tornar diferenciais estratégicos em um cenário global cada vez mais restritivo e competitivo.
fonte: Bloomberg

