Dhauz junta-se a Quantum Rise

Nous Research NousCoder-14B é um modelo de codificação de código aberto que aterrissa no momento Claude Code

Pesquisa de Nous, a startup de inteligência artificial de código aberto apoiada por empresa de empreendimento cripto Paradigm, lançou um novo modelo de programação competitiva na segunda-feira que diz jogos ou ultrapassa vários sistemas proprietários maiores — treinado em apenas quatro dias usando 48 dos mais recentes da Nvidia Processadores gráficos B200.

O modelo, chamado NousCoder-14B, é outra entrada em um campo lotado de assistentes de codificação de IA, mas chega em um momento particularmente carregado: Código Claude, a ferramenta de programação agente do rival Anthropic, tem dominado a discussão de mídias sociais desde o Dia de Ano Novo, com desenvolvedores postando sem fôlego testemunhos sobre as suas capacidadesOs desenvolvimentos simultâneos sublinham a rapidez com que o desenvolvimento de software assistido por IA está a evoluir — e quão ferozmente as empresas grandes e pequenas estão competindo para capturar o que muitos acreditam que se tornará uma tecnologia fundamental para como o software é escrito.

tipo: embedded-entry-inline id: 74cSyrq6OUrp9SEQ5zoUSl

NousCoder-14B atinge uma taxa de 67,87 por cento de precisão em LiveCodeBench v6, uma avaliação padronizada que testa modelos sobre problemas de programação competitiva publicados entre agosto de 2024 e maio de 2025. Esse número representa uma melhoria de 7,08 pontos percentuais em relação ao modelo de base a partir do qual foi treinado, Alibaba Qwen3-14B, de acordo com o relatório técnico da Nous Research publicado ao lado do lançamento.

"Dei ao Código Claude uma descrição do problema, gerou o que construímos no ano passado em uma hora," escreveu Jaana Dogan, um engenheiro principal do Google responsável pela API Gemini, em um post viral em X na semana passada que captou o humor predominante em torno de ferramentas de codificação de IA. Dogan estava descrevendo um sistema de orquestração de agentes distribuídos que sua equipe havia passado um ano desenvolvendo — um sistema Claude Code aproximado de um prompt de três parágrafos.

A justaposição é instrutiva: enquanto Antrópico Claude Code capturou imaginações. com demonstrações de desenvolvimento de software de ponta a ponta, Nous Research está apostando que alternativas de código aberto treinadas em problemas verificáveis podem fechar a lacuna — e que a transparência na forma como esses modelos são construídos importa tanto quanto a capacidade bruta.


Como Nous Research construiu um modelo de codificação de IA que qualquer um pode replicar

O que distingue o NousCoder-14B o lançamento de muitos anúncios concorrentes é sua abertura radical. Nous Research publicou não apenas o pesos do modelo mas o ambiente de aprendizagem completo de reforço, conjunto de referência e arnês de treino — construído sobre a empresa Atropos framework — permitindo que qualquer pesquisador com computação suficiente para reproduzir ou ampliar o trabalho.

"Open-sourcing da pilha Atropos fornece a infra-estrutura necessária para reprodutível pesquisa de raciocínio de nível olimpíada," observou um observador em X, sintetizando o significado para as comunidades acadêmicas e de código aberto.

O modelo foi treinado por Joe Li, pesquisador residente na Nous Research e ex-programador competitivo. Li’s relatório técnico revela uma dimensão inesperadamente pessoal: comparou a trajetória de melhoria do modelo com sua própria jornada na Codeforces, a plataforma de programação competitiva onde os participantes ganham avaliações com base no desempenho do concurso.

Com base em estimativas aproximadas mapeando escores LiveCodeBench para classificações Codeforces, Li calculou que NousCoder-14B's improvemen t— desde aproximadamente a faixa de classificação 1600-1750 até 2100-2200 — espelha um salto que levou quase dois anos de prática sustentada entre 14 e 16. O modelo realizou o equivalente em quatro dias.

"Observar que o treino final se desenrolava foi uma experiência bastante surreal", escreveu Li no relatório técnico.

Mas Li foi rápido em notar uma ressalva importante que fala de questões mais amplas sobre a eficiência da IA: ele resolveu cerca de 1.000 problemas durante esses dois anos, enquanto o modelo exigiu 24.000. Os humanos, pelo menos por enquanto, permanecem drasticamente mais eficientes em termos de amostra.


Dentro do sistema de aprendizagem de reforço que treina 24.000 problemas de programação competitivos

NousCoder-14B«O processo de formação oferece uma janela para as técnicas cada vez mais sofisticadas que os investigadores utilizam para melhorar as capacidades de raciocínio de IA através da aprendizagem de reforço.

A abordagem depende do que os pesquisadores chamam de "recompensas verificáveis" — um sistema onde o modelo gera soluções de código, essas soluções são executadas contra casos de teste, e o modelo recebe um sinal binário simples: correto ou incorreto. Este ciclo de feedback, embora conceitualmente simples, requer infraestrutura significativa para executar em escala.

Nous Pesquisa utilizada Modal, uma plataforma de computação em nuvem, para executar a execução de código sandboxed em paralelo. Cada um dos 24.000 problemas de treinamento contém centenas de casos de teste em média, e o sistema deve verificar que o código gerado produz saídas corretas dentro de restrições de tempo e memória — 15 segundos e 4 gigabytes, respectivamente.

O treinamento empregou uma técnica chamada DAPO (Otimização da política de amostragem dinâmica), que os pesquisadores encontraram desempenho ligeiramente melhor do que alternativas em seus experimentos. Uma inovação chave envolve "amostra dinâmica" — descartando exemplos de treinamento onde o modelo ou resolve todas as tentativas ou falha todas as tentativas, uma vez que estes não fornecem sinal gradiente útil para o aprendizado.

Os pesquisadores também adotaram "extensão de contexto iterativa", primeiro treinando o modelo com uma janela de contexto de 32 mil token antes de expandir para 40.000 tokens. Durante a avaliação, estendendo o contexto para aproximadamente 80.000 tokens produziu os melhores resultados, com precisão chegando a 67,87 por cento.

Talvez mais significativamente, o gasoduto de formação sobrepõe-se a inferência e verificação — assim que o modelo gera uma solução, ele começa a trabalhar no próximo problema enquanto a solução anterior está sendo verificada. Este pipelining, combinado com treinamento assíncrono, onde várias instâncias de modelos trabalham em paralelo, maximiza a utilização de hardware em clusters GPU caros.


A escassez de dados que poderia retardar o progresso do modelo de codificação de IA

Enterrado em Li relatório técnico é um achado com implicações significativas para o futuro do desenvolvimento de IA: o conjunto de dados de treinamento para NousCoder-14B engloba "uma parcela significativa de todos os problemas de programação competitiva prontamente disponíveis e verificáveis em um formato de conjunto de dados padronizado."

Ou seja, para este domínio em particular, os pesquisadores estão abordando os limites de dados de treinamento de alta qualidade.

"O número total de problemas de programação competitivos na Internet é aproximadamente a mesma ordem de grandeza", escreveu Li, referindo-se aos 24 mil problemas usados para o treinamento. "Isso sugere que dentro do domínio de programação competitivo, nós abordamos os limites de dados de alta qualidade."

Esta observação ecoa uma preocupação crescente em toda a indústria de IA sobre restrições de dados. Enquanto a computação continua a escalar de acordo com os princípios econômicos e de engenharia bem compreendidos, os dados de treinamento é "increscentemente finito", como Li disse.

"Parece que algumas das pesquisas mais importantes que precisam ser feitas no futuro serão nas áreas de geração de dados sintéticos e algoritmos e arquiteturas eficientes", concluiu.

O desafio é particularmente agudo para a programação competitiva porque o domínio requer problemas com soluções corretas conhecidas que podem ser verificadas automaticamente. Ao contrário de tarefas de linguagem natural onde a avaliação humana ou métricas proxy suficientes, código funciona ou não — tornando a geração de dados sintéticos consideravelmente mais difícil.

Li identificou uma via potencial: modelos de treinamento não apenas para resolver problemas, mas para gerar problemas solucionáveis, permitindo uma forma de auto-jogo semelhante a técnicas que provaram sucesso em sistemas de IA de jogo. "Uma vez que a geração de problemas sintéticos é resolvida, o autojogo torna-se uma direção muito interessante", escreveu.


A $65 milhões de apostas que a IA de código aberto pode competir com a Big Tech

Nous Research esculpiu uma posição distinta na paisagem de IA: uma empresa comprometida com versões de código aberto que competem com — e, por vezes, exceder — alternativas proprietárias.

A empresa criada $50 milhões em abril de 2025 em uma rodada liderada pela Paradigm, a empresa de risco focada em criptomoeda fundada pela Coinbase co-fundador Fred Ehrsam. Total dos financiamentos alcançados $65 milhões, segundo alguns relatórios. O investimento reflectiu um interesse crescente nas abordagens descentralizadas da formação em IA, uma área em que a Nous Research desenvolveu o seu Plataforma de psique.

As versões anteriores incluem Hermes 4, uma família de modelos que relatamos "supera o ChatGPT sem restrições de conteúdo," e DeepHermes-3, que a empresa descreveu como o primeiro "modelo de raciocínio comutador" — permitindo que os usuários ativem capacidades de pensamento estendidas sob demanda.

A empresa tem cultivado uma estética e uma comunidade distintas, suscitando algum ceticismo sobre se o estilo poderia ofuscar a substância. "Ofc eu vou acreditar em uma empresa de anime pfp. parar benchmarkmaxxing ffs, escreveu um crítico em X, referindo-se ao estilo de anime de Nous Research e à prática do setor de otimização para desempenho de referência.

Outros levantaram questões técnicas."Com base na referência, Nemotron é melhor," observou um comentarista, referindo-se à família de Nvidia de modelos de linguagem. Outro perguntou se NousCoder-14B é "agente focado ou apenas "um tiro" codificação" — uma distinção que importa para o desenvolvimento de software prático, onde iterating no feedback normalmente produz melhores resultados do que tentativas individuais.


O que os pesquisadores dizem deve acontecer em seguida para ferramentas de codificação de IA para continuar melhorando

O lançamento inclui várias direções para trabalhos futuros que sugerem para onde a pesquisa de codificação de IA pode estar indo.

A aprendizagem de reforço multi-turnos está no topo da lista. Atualmente, o modelo recebe apenas uma recompensa binária final — passar ou falhar — após gerar uma solução. Mas problemas de programação competitivos normalmente incluem casos de teste públicos que fornecem feedback intermediário: erros de compilação, saídas incorretas, violações de limite de tempo. Modelos de treinamento para incorporar esse feedback em várias tentativas poderiam melhorar significativamente o desempenho.

Controlar o comprimento da resposta também permanece um desafio. Os pesquisadores descobriram que soluções incorretas tenderam a ser mais longas do que as corretas, e comprimentos de resposta rapidamente saturaram janelas de contexto disponíveis durante o treinamento — um padrão que várias modificações algorítmicas não conseguiram resolver.

Talvez mais ambiciosamente, Li propôs "geração de problemas e auto-jogo" — modelos de treinamento para resolver e criar problemas de programação. Isso abordaria diretamente o problema da escassez de dados, permitindo que modelos gerassem seus próprios currículos de formação.

"Os humanos são ótimos em gerar problemas interessantes e úteis para outros programadores competitivos, mas parece que ainda existe uma lacuna significativa nas capacidades LLM na geração de problemas criativos", escreveu Li.

O modelo é disponível agora em Hugging Face com uma licença Apache 2.0. Para pesquisadores e desenvolvedores que querem construir sobre o trabalho, Nous Research publicou o Atropos pilha de treino ao lado dela.

O que levou Li dois anos de dedicação adolescente para alcançar—subir de um novato de 1600 para um concorrente de 2100 na Codeforces—uma IA replicada em 96 horas. Ele precisava de mil problemas. O modelo precisava de 24.000. Mas, em breve, esses sistemas talvez aprendam a escrever seus próprios problemas, a ensinar a si mesmos, e a deixar as referências humanas inteiramente para trás.

A questão não é mais se as máquinas podem aprender a codificar. É se em breve serão melhores professores do que nós jamais fomos.

PortuguêsptPortuguêsPortuguês