
Diagrama estilizado de um agente recebendo recompensa apenas no fim da trajetória. Karpathy descreve este processo como 'sugar a supervisão por um canudo'. Foto: divulgação.
Karpathy: 'Reinforcement learning é sugar supervisão por um canudo' — por que a técnica que treina agentes hoje é mais frágil do que parece
Há uma frase que Andrej Karpathy vem repetindo, em variações ligeiramente diferentes, em pelo menos três aparições públicas das últimas semanas: entrevistas, tweets e o ensaio Animals vs Ghosts no blog pessoal dele. A frase é uma metáfora visual, e a metáfora é esta: reinforcement learning, a família de técnicas que está hoje no centro do treinamento dos agentes mais avançados, é como sugar supervisão por um canudo. A imagem é desconfortável de propósito. E é importante entender por que ele insiste nela.
Vamos primeiro definir do que estamos falando, porque o termo reinforcement learning — daqui para frente, RL — é jogado em muitas conversas sem que se explique bem o que está por trás.
RL é uma família de técnicas de aprendizado de máquina em que um agente toma decisões em sequência, num ambiente, e recebe ao longo do caminho — ou no fim — alguma forma de recompensa. A ideia é simples: se você tomou uma boa decisão, ajusta os parâmetros para tornar essa decisão mais provável da próxima vez. Se tomou uma má decisão, diminui a probabilidade dela.
Funciona bem em jogos, onde a recompensa é clara — ganhou ou perdeu. Funcionou bem com o AlphaGo. Funciona, hoje, no treinamento posterior dos modelos de linguagem grandes — quando a OpenAI ou a Anthropic ajusta um modelo para preferir respostas úteis, honestas e inofensivas, o método por trás envolve, em grande medida, RL com feedback humano.
Karpathy não está dizendo que RL não funciona. Está apontando para uma característica estrutural que ele considera, palavras dele, muito pior do que a pessoa média imagina.
A geometria do canudo
Aqui é onde a metáfora ajuda.
Imagine uma trajetória de mil passos. O agente toma mil decisões em sequência — escolhe um caminho, escolhe outro, escolhe outro, decide ler isto, decide pular aquilo. Cada uma dessas decisões tem nuances, contexto, alternativas que ele considerou e descartou.
Ao final dos mil passos, o ambiente devolve um sinal: certo ou errado. Sucesso ou fracasso. Um único bit. Talvez um número real entre zero e um, mas mesmo assim — uma quantidade muito pequena de informação para descrever o que aconteceu nas mil decisões intermediárias.
O que o algoritmo de RL faz, então? Toma esse sinal final e propaga para cima, distribuindo o mérito ou a culpa pela trajetória inteira. Cada passo recebe uma porção desse sinal único, ajustando seus parâmetros conforme o resultado final sugere.
Karpathy descreve esse processo como sugar pela canudinho. A imagem é precisa: você tem um copo grande de informação rica que poderia estar no topo — feedback contextual sobre cada decisão específica — mas em vez disso, está sugando todo o líquido por um canudo finíssimo no fundo, e tentando deduzir, da quantidade sugada, o que estava no copo.
A informação útil para corrigir cada decisão individual está quase toda perdida no caminho. O sinal sobrevivente é grosseiro demais para ensinar, com precisão, quais escolhas específicas foram boas e quais foram ruins.
Por que funciona, então
Aqui está a parte interessante. Apesar de tudo isso, RL funciona suficientemente bem para produzir alguns dos comportamentos mais impressionantes da última década em IA. Como?
A resposta tem três partes.
Primeiro, escala compensa eficiência. Se você roda o mesmo processo bilhões de vezes, mesmo um sinal magro, repetido o suficiente, eventualmente molda os parâmetros na direção certa. Não é eficiente por episódio, mas é viável quando você tem poder computacional excessivo.
Segundo, estrutura ajuda. Quando o agente já tem um modelo de linguagem grande pré-treinado por baixo, ele não precisa aprender tudo do zero. Está partindo de uma base que já entende muita coisa sobre o mundo, sobre estrutura de texto, sobre o que costuma funcionar. O RL apenas afina, no topo, o que já está parcialmente formado embaixo.
Terceiro, e este é o ponto mais sutil, certas tarefas são bem comportadas. Problemas onde a recompensa final é altamente correlacionada com decisões locais boas — como jogos com regras claras — toleram bem o canudo. Problemas onde a relação entre o passo individual e o resultado final é tênue — como conversas longas de várias etapas — toleram mal.
E é exatamente nesses problemas mal comportados que estamos tentando aplicar RL agora, no esforço de criar agentes capazes de navegar tarefas complexas de várias etapas.
A leitura para quem trabalha com agentes
Se você está construindo um agente em 2026 — para um produto, para uma empresa, para um experimento pessoal —, a metáfora do canudo deveria mudar como você pensa sobre treinamento e avaliação.
Primeiro, cuidado com benchmarks fáceis demais. Se o seu agente passa em um teste simples mas falha em variações dele, não é problema do agente — provavelmente é problema da supervisão fina demais que ele recebeu. O canudo só permite ensinar o que é reforçado em escala. O detalhe específico daquela variação não chegou ao agente porque o sinal não conseguiu carregar informação tão fina.
Segundo, valorize feedback denso. Toda vez que você consegue dar ao agente sinal mais detalhado — não apenas "isso está certo" mas "isso está certo PORQUE" — você está alargando o canudo. Karpathy gosta muito de defender que feedback rico, tipo o que um professor humano dá a um aluno, é o caminho mais promissor para amadurecer agentes.
Terceiro, suspeite de promessas de auto-aperfeiçoamento. Há quem diga que basta deixar o agente rodando, recompensar o que funciona, e ele vai melhorar sozinho indefinidamente. Karpathy está apontando que, com as técnicas atuais, esse caminho tem limites duros. O agente vai melhorar até certo ponto, e depois estagna — porque o canudo só carrega tanta informação por unidade de tempo.
Animais e fantasmas, mais uma vez
Para fechar, vale conectar esta crítica ao ensaio Animals vs Ghosts, publicado por Karpathy no blog dele em resposta a uma provocação de Richard Sutton, um dos pais do RL moderno.
A tese do ensaio é poética e tecnicamente densa. Animais aprendem porque foram esculpidos por bilhões de anos de evolução em contato direto com o mundo, e porque recebem, durante a vida, sinais riquíssimos de cada interação. Os modelos de linguagem atuais, escreve Karpathy, são fantasmas — entidades nascidas da imitação de dados humanos, sem corpo, sem ambiente real, sem o tipo de feedback rico que esculpe animais.
O pré-treinamento de um LLM é, na frase exata dele, uma evolução porcaria — uma solução temporária para o problema de partida a frio antes que o agente possa aprender com uso real do mundo.
O RL, neste enquadramento, é o esforço atual de dar um pouco de animal a um fantasma. O canudo é a forma como esse esforço chega hoje. E ele é o melhor que temos, mas não é, segundo Karpathy, o que vai nos levar até o fim do caminho.
Fonte original: declarações de Andrej Karpathy compiladas pelo Office Chai, tweet de referência e ensaio Animals vs Ghosts no blog pessoal dele.
Receba o Mirante no seu email
As principais notícias do dia, curadas por inteligência artificial, direto na sua caixa de entrada.