
Os fluxos de trabalho dos engenheiros de software foram transformados nos últimos anos por uma onda de ferramentas de codificação de IA, como Cursor e GitHub Copilot, que prometem aumentar a produtividade escrevendo linhas de código automaticamente, corrigindo bugs e testando alterações. As ferramentas são alimentadas por modelos de IA da OpenAI, Google DeepMind, Anthropic e xAI, que aumentaram rapidamente seu desempenho em uma variedade de testes de engenharia de software nos últimos anos.
No entanto, um novo estudo publicado na quinta-feira pelo grupo de pesquisa de IA sem fins lucrativos METR questiona até que ponto as ferramentas de codificação de IA atuais aumentam a produtividade de desenvolvedores experientes.
O METR conduziu um ensaio clínico randomizado para este estudo, recrutando 16 desenvolvedores experientes de código aberto e solicitando que completassem 246 tarefas reais em grandes repositórios de código para os quais contribuem regularmente. Os pesquisadores atribuíram aleatoriamente aproximadamente metade dessas tarefas como “permitidas por IA”, dando aos desenvolvedores permissão para usar ferramentas de codificação de IA de última geração, como o Cursor Pro, enquanto a outra metade das tarefas proibia o uso de ferramentas de IA.
Antes de concluírem as tarefas atribuídas, os desenvolvedores previram que o uso de ferramentas de codificação de IA reduziria o tempo de conclusão em 24%. Mas não foi o que aconteceu.
“Surpreendentemente, descobrimos que permitir a IA na verdade aumenta o tempo de conclusão em 19% — os desenvolvedores são mais lentos ao usar ferramentas de IA”, disseram os pesquisadores.
Notavelmente, apenas 56% dos desenvolvedores do estudo tinham experiência com o Cursor, a principal ferramenta de IA oferecida no estudo. Embora quase todos os desenvolvedores (94%) tivessem experiência com o uso de algum LLM baseado na web em seus fluxos de trabalho de codificação, este estudo foi a primeira vez que alguns usaram o Cursor especificamente. Os pesquisadores observam que os desenvolvedores receberam treinamento sobre o uso do Cursor como preparação para o estudo.
No entanto, as descobertas do METR levantam questões sobre os supostos ganhos universais de produtividade prometidos pelas ferramentas de codificação de IA em 2025. Com base no estudo, os desenvolvedores não devem presumir que as ferramentas de codificação de IA — especificamente o que ficou conhecido como “codificadores de vibração” — acelerarão imediatamente seus fluxos de trabalho.
Pesquisadores do METR apontam algumas possíveis razões pelas quais a IA atrasou os desenvolvedores em vez de acelerá-los: os desenvolvedores gastam muito mais tempo solicitando instruções à IA e esperando que ela responda ao usar codificadores Vibe do que codificando de fato. A IA também tende a ter dificuldades em bases de código grandes e complexas, que foram utilizadas neste teste.
Os autores do estudo têm o cuidado de não tirar conclusões definitivas dessas descobertas, observando explicitamente que não acreditam que os sistemas de IA atualmente não consigam acelerar muitos ou a maioria dos desenvolvedores de software. Outros estudos em larga escala mostraram que ferramentas de codificação de IA aceleram os fluxos de trabalho dos engenheiros de software.
Os autores também observam que o progresso da IA tem sido substancial nos últimos anos e que eles não esperariam os mesmos resultados mesmo daqui a três meses. O METR também descobriu que as ferramentas de codificação de IA melhoraram significativamente sua capacidade de concluir tarefas complexas e de longo prazo nos últimos anos.
No entanto, a pesquisa oferece mais um motivo para ceticismo em relação aos ganhos prometidos pelas ferramentas de codificação de IA. Outros estudos mostraram que as ferramentas de codificação de IA atuais podem introduzir erros e, em alguns casos, vulnerabilidades de segurança .
fonte: TechCrunch / Techrepublic
