
Andrej Karpathy em estúdio, durante conversa com Dwarkesh Patel sobre o ritmo real do progresso em IA. Foto: divulgação Dwarkesh Podcast.
Karpathy: 'É a década do agente, não o ano do agente' — por que o hype atual está calibrado errado
Em uma das passagens mais comentadas da entrevista que deu ao podcaster Dwarkesh Patel — gravação publicada no fim de outubro de 2025 e ainda fortemente repetida no Twitter dos pesquisadores em março e abril de 2026 —, Andrej Karpathy disse uma frase que destoava do hype dominante. Não era 'o ano do agente', como anunciavam algumas chamadas de conferência. Era, segundo ele, 'a década do agente'. A diferença entre uma palavra e a outra parece pequena, mas ela contém praticamente toda a discussão honesta sobre onde estamos, onde não estamos e quanto tempo falta.
Vamos antes situar o contexto, porque a frase só faz sentido se entendermos contra o que ela está reagindo.
Em 2024 e 2025, houve uma onda de apresentações de empresas e laboratórios afirmando, com graus variados de seriedade, que 2025 seria o "ano do agente". A ideia era de que os modelos de linguagem grandes tinham finalmente chegado a um ponto em que podiam executar tarefas de várias etapas sem supervisão constante do humano — agendar reuniões, fazer compras, navegar páginas web, escrever código que funciona sem precisar de revisão linha por linha. A próxima fronteira, dizia o slide, era o "agentic AI".
Karpathy não negou que essa direção fosse importante. Negou que ela coubesse em um ano.
Os quatro buracos que ele apontou
Na conversa com Dwarkesh, Karpathy elenca, com a calma de quem está descrevendo um diagnóstico técnico em vez de uma profecia, quatro coisas que ainda faltam para um agente funcionar como o estagiário razoavelmente confiável que o slide promete.
A primeira é a multimodalidade plena. Os modelos de hoje sabem ler texto, ler imagens com boa precisão, entender áudio. Mas existem ainda muitas modalidades em que tropeçam — vídeo longo, controle motor, percepção espacial fina, voz com nuances emocionais sustentadas por horas. O agente que vai te ajudar a viver no mundo precisa de todas essas competências costuradas juntas, não só uma de cada vez.
A segunda é o uso de computador — em inglês computer use. Karpathy se refere à capacidade do modelo de operar realmente um computador, não apenas descrever o que faria. Clicar em botões de aplicativos antigos. Lidar com janelas que travaram. Reagir quando uma página carregou diferente do esperado. Quem já viu uma demonstração de agente perdida num pop-up de cookie sabe exatamente do que ele está falando.
A terceira é o aprendizado contínuo. Os modelos atuais são congelados depois do treinamento. Quando você ensina algo novo, nada disso fica permanentemente — na próxima sessão, o modelo não lembra que você corrigiu aquele erro ontem. Para um estagiário ser útil, ele precisa pelo menos lembrar de quem é você e do que você pediu na semana passada.
A quarta é a memória propriamente dita — não a janela de contexto curta, mas a capacidade de organizar experiência ao longo de meses e anos, recuperar o que importa, esquecer o que não importa, e usar essa biblioteca pessoal para tomar decisões.
Cada uma dessas quatro coisas, sozinha, é um problema de pesquisa em aberto. As quatro juntas, segundo Karpathy, somam cerca de uma década de trabalho — não um trimestre.
"Um sinal magro propagado para um ato grande"
Há um detalhe técnico que vale a pena trazer aqui, porque é o mesmo Karpathy quem o repetiu em outras entrevistas e tweets, incluindo no post no blog dele Animals vs Ghosts.
Os modelos atuais aprendem a se comportar bem em tarefas de várias etapas usando uma família de técnicas chamada reinforcement learning. A ideia é simples: deixa o modelo tentar uma tarefa inteira, mede no fim se ele se saiu bem ou mal, e depois ajusta os parâmetros para tornar mais provável que ele repita o que funcionou.
Karpathy gosta de descrever esse processo com uma imagem bem particular. Diz que é como sugar a supervisão por um canudo. A trajetória inteira — milhares de passos, cada um com suas nuances, suas escolhas finas, seus momentos críticos — recebe no final um sinal de "certo" ou "errado". Esse sinal magro, único bit, é então propagado para cima e tenta moldar o comportamento de cada passo intermediário.
É um método que funciona. Mas é uma forma muito ineficiente de ensinar. Animais não aprendem assim. Aprendizes humanos não aprendem assim. Aprendem com sinais ricos, frequentes, contextuais — e é por isso que aprendem rápido com pouco dado.
A leitura particular de Karpathy é que enquanto não tivermos formas melhores de dar feedback rico aos modelos, vamos ter ganhos importantes em RL, mas não vamos ter o salto que transformaria o agente atual num assistente confiável.
Por que a "década" é uma boa notícia
Aqui é onde a coluna brasileira se afasta um pouco do tom sóbrio do original e arrisca uma leitura.
Quando Karpathy diz "década", não está sendo pessimista. Está sendo realista de um modo que é, no fundo, animador.
Animador porque significa que ainda há trabalho técnico substancial a fazer — não apenas ajustar prompts e conectar APIs. Animador porque significa que o desenvolvedor que entra no campo agora tem dez anos de problemas abertos pela frente, não três meses de "tudo já foi resolvido". Animador porque significa que a fronteira da pesquisa não foi capturada inteiramente pelos cinco laboratórios que pagam mais salário — ainda há espaço para descobertas vindas de quem tem GPU sobrando e curiosidade.
E é animador, sobretudo, porque o "ano do agente" era uma promessa que prometia demais e entregava pouco. Quando o prometido demais não aparece, o público desanima. Quando o prometido em dez anos aparece com seis meses de antecedência, o público se anima. O ritmo realista é o que sustenta o campo no longo prazo.
A leitura para o leitor brasileiro
Se você é programador, gestor ou estudante no Brasil, e está tentando decidir se vale investir tempo aprendendo a trabalhar com agentes em 2026, a frase de Karpathy ajuda a calibrar a expectativa.
Sim, vale investir. As ferramentas atuais já são úteis para casos concretos — tradução, geração de código, resumo, busca estruturada, transcrição, classificação. Tudo isso funciona bem e melhora a cada trimestre.
Mas: não conte com o agente que faz tudo sozinho até 2030. Conte com um colega digital que ajuda em fatias específicas e exige supervisão constante. O ofício de quem vai trabalhar bem com IA nos próximos anos vai parecer mais com edição assistida do que com terceirização total.
E enquanto isso, vá aprendendo a descrever bem o que você quer. Porque essa habilidade — escrita técnica clara, problemas bem definidos, critérios de sucesso explícitos — é exatamente a que vai escalar quando, daqui a algum tempo, as outras quatro peças finalmente entrarem no lugar.
A década do agente vai chegar. Karpathy só está pedindo paciência calibrada.
Fonte original: entrevista de Andrej Karpathy ao podcast de Dwarkesh Patel (out/2025, repercussão sustentada em mar-abr/2026), tweet de referência @karpathy e ensaio Animals vs Ghosts no blog pessoal dele.
Receba o Mirante no seu email
As principais notícias do dia, curadas por inteligência artificial, direto na sua caixa de entrada.