Por que o ganho de qualidade nos agentes de IA em 2026 não veio de modelos maiores?

Porque o problema deles nunca foi o motor, foi o corpo. Um modelo de linguagem sozinho esquece tudo a cada chamada, improvisa procedimentos longos e inventa formatos de saída. Nenhum desses três problemas se resolve aumentando parâmetros — se resolve externalizando memória, skills e protocolos para fora do modelo.

Um advogado ou jornalista precisa entender harness para usar IA no trabalho?

Não para usar ChatGPT ocasionalmente. Mas sim para construir um fluxo agêntico sério — redação assistida, triagem de processos, atendimento. A diferença entre um piloto que funciona uma vez e um sistema que opera oito horas seguidas é harness, não escolha de modelo.

O que significa harness e por que o termo pegou?

Harness em inglês é o conjunto de arreios — o equipamento de tração que conecta o cavalo à carroça ou ao arado. Vem do francês antigo harneis (século XII), que significava conjunto de utensílios de trabalho. Como verbo (to harness), quer dizer canalizar, aproveitar, domar algo potente para fim útil. O termo pegou em engenharia de IA porque descreve exatamente o que ele é: os arreios não aumentam a força do cavalo; eles transformam força bruta em trabalho direcionado. Modelo de IA é força bruta; harness é o que canaliza essa força em resultado confiável.

Gestão sempre foi harness. A IA só agora está descobrindo isso.

Q: O que é um harness em agentes de IA?

Harness é o corpo ao redor do modelo de linguagem — memória persistente, procedimentos reutilizáveis, protocolos de comunicação, sandbox, controles de custo, logs. É o que transforma um gerador de texto probabilístico em um agente confiável.

A primeira vez que um agente do Mirante entregou uma matéria sozinho, fiquei olhando o log por alguns minutos sem acreditar. Não porque o modelo tinha ficado melhor — ele era o mesmo de três meses antes. O que mudou estava fora dele. Havia um arquivo SKILL.md descrevendo como escrever no nosso estilo. Havia uma memória episódica lembrando dos erros das últimas dez matérias. Havia um protocolo tipado para o agente chamar o banco de imagens sem inventar caminhos. E havia um runtime costurando tudo isso, perguntando ao modelo só o que interessava perguntar — e nada mais.

Essa é a virada que o jornalismo de tecnologia, incluindo alguns artigos bons, ainda não contou direito. Enquanto o discurso público ficou preso em quem tem o modelo maior, o progresso real dos últimos dezoito meses aconteceu em uma camada que praticamente ninguém estava olhando. Ela tem um nome agora, e vale pausar por um instante no nome antes de seguir — porque o nome traz dentro de si quase toda a tese.

A palavra

A palavra é harness. Em português direto, é o conjunto de arreios — o equipamento de tração que se coloca num cavalo, num boi ou numa mula para conectar o animal à carroça, ao arado, à diligência. A palavra vem do francês antigo harneis, do século XII, que significava "equipamento, armamento, conjunto de utensílios de trabalho" — provavelmente herdado do nórdico antigo hernest, onde herr era exército e nest, provisão. Era, literalmente, o que um guerreiro vestia para transformar seu corpo em unidade de combate. Depois virou o equipamento que transforma a força crua de um animal em trabalho útil do campo. Hoje o termo, em inglês, também serve para o cinto do alpinista, o suporte do paraquedista, a cadeirinha do bebê no carro. E existe ainda a forma verbal — to harness — que significa "canalizar, aproveitar, domar para fim útil". "To harness wind power." "To harness nuclear energy."

A palavra serve porque traduz uma ideia simples e central: os arreios não aumentam a força do cavalo. Eles conectam a força do cavalo à carroça. Um cavalo solto é potência bruta, impressionante e inutilizável. Os arreios não mexem no animal. Mexem no entorno. E é essa mexida no entorno que transforma força crua em trabalho direcionado.

É exatamente o que a engenharia de IA descobriu fazer com os modelos de linguagem. E uma revisão acadêmica de cinquenta e quatro páginas saiu este mês para formalizar o que quem constrói já sabia. Mas o interessante não é o paper. É o que a palavra, bem entendida, já carrega.

A mentira gentil que estávamos contando

A história que virou senso comum foi mais ou menos esta: agentes de IA funcionam melhor quando os modelos ficam maiores. O jeito de avançar é treinar algo maior, melhor, com mais dados. Foi nisso que a indústria apostou centenas de bilhões de dólares.

O problema é que quem constrói esses agentes na prática sabia, há pelo menos um ano, que essa história estava incompleta. Os ganhos mais consistentes não vinham de modelo novo. Vinham de decisões que ninguém demonstrava em palco: colocar um banco de dados para o agente lembrar das sessões anteriores, escrever um arquivo explicando passo a passo como ele deveria executar aquela tarefa específica, substituir a chamada improvisada a uma ferramenta por um contrato tipado. Nada disso é sexy. Nada disso aparece em benchmark. Nada disso vira anúncio de lançamento. Mas é o que diferencia um agente que funciona da porta para dentro do que funciona em produção real.

O modelo nu — o que você acessa via API pura, sem nada em volta — tem três problemas que nenhum tamanho resolve. Ele não se lembra de nada: cada chamada começa do zero. Ele improvisa procedimentos longos: peça a mesma coisa cinco vezes e ele decompõe em cinco sequências diferentes. E ele inventa formatos de saída: pede JSON e às vezes vem uma saudação educada. Todo mundo que botou um agente em produção bateu nesses três muros.

Não dá para resolver escalando o motor. Dá para resolver mudando a tarefa que o motor precisa executar.

Um nome antigo para uma ideia nova

Em 1993, Donald Norman escreveu uma frase que virou fundação da psicologia cognitiva moderna: artefatos cognitivos não aumentam a capacidade de quem os usa. Eles mudam a tarefa. Uma lista de compras não expande sua memória. Ela transforma o problema de lembrar doze itens em reconhecê-los. Um mapa não torna ninguém mais inteligente espacialmente. Ele converte relações invisíveis em estrutura visível. O ganho vem de fora, não de dentro.

É exatamente esse o movimento que está acontecendo com agentes de IA agora — e, curiosamente, é a quinta vez que a humanidade faz isso consigo mesma.

O arco da externalização — da linguagem falada à computação, e agora da computação aos agentes. Em cada salto, a capacidade interna não cresceu. O que mudou foi o que precisava ser feito internamente.

Linguagem falada tirou o pensamento de dentro da cabeça. Escrita tirou a memória de dentro do cérebro. Imprensa escalou a escrita. Computação digital externalizou o cálculo. E agora os agentes de IA estão passando pela mesma operação — só que agora o que está sendo externalizado é a parte dos agentes que não cabe dentro do modelo. Memória cabe no banco de dados. Procedimento cabe em arquivo. Coordenação cabe em protocolo. E o modelo fica com o que ele faz bem: raciocinar sobre o que já está organizado na frente dele.

É bonito perceber que isso é uma lei geral. Não é tendência de mercado. É a quinta vez.

O anatômico do agente

Na prática, o harness tem uma anatomia recorrente. Todo sistema sério construído hoje — Claude Code, o Codex da OpenAI, o OpenHands, nosso próprio pipeline no Mirante — acaba convergindo para a mesma estrutura, mesmo quando parte de escolhas técnicas diferentes. No centro, o modelo. Ao redor dele, três módulos que carregam o conteúdo cognitivo externo. E três superfícies que governam como esse conteúdo é acessado.

Memória, skill e protocolo respondem a três perguntas distintas: o que lembrar, como fazer, como falar com o mundo. Sandbox, controle e observabilidade respondem a três perguntas de governança: o que deixar tocar, quando parar, como auditar depois. Seis peças. Qualquer agente de produção hoje, se você desenhar o mapa, tem essas seis.

O que surpreende, quando você vê desenhado, é que o modelo ocupa o menor espaço. A maior parte do trabalho — aquilo que diferencia um agente pronto para atender cliente de um agente que falha em quatro execuções de cada cinco — está fora dele.

Como isso vive no Mirante

Pode parecer abstrato até você acompanhar um texto nascendo. Então acompanhe — e vou usar um que eu mesmo assino.

Quando escrevo coluna de tecnologia aqui, o processo não começa em mim sentando para escrever. Começa horas antes, em uma rotina automatizada que varre fontes o tempo todo. Há um scanner que roda continuamente em cima de feeds de arXiv, de papers recém-publicados em conferências de IA, de blogs técnicos que eu indiquei como relevantes, de anúncios oficiais de laboratórios, e de plataformas de discussão técnica que costumam antecipar o que vai virar notícia em semanas. Cada item que entra é classificado por editoria, por tema, por relevância, e guardado com metadados — data, fonte, trecho-chave. Isso é memória. Quando sento para escrever, não começo perguntando "sobre o que escrever esta semana". Começo lendo um painel curado que já separou dez assuntos quentes e me mostrou o que ninguém da imprensa brasileira cobriu ainda.

Escolhido o tema, entra a fase de pesquisa. Um segundo agente mergulha fundo naquele assunto específico: busca o paper original se houver, reúne as reações técnicas, procura o que a imprensa internacional já publicou, identifica onde estão as controvérsias e onde está o consenso. Ele me devolve não um resumo, mas um dossiê estruturado — fontes primárias, fontes secundárias, pontos fortes e fracos de cada argumento, o que ainda não foi respondido. Esse dossiê é outra forma de memória — memória temporária, específica daquela coluna, que será descartada depois mas que durante a escrita está disponível a cada consulta.

Na escrita propriamente dita, tenho um arquivo que descreve minha voz, meus vícios a evitar, o tipo de abertura que prefiro, a cadência de frase que funciona para o leitor Mirante. Esse arquivo é carregado como instrução antes da primeira linha. É skill, no sentido técnico — procedimento reutilizável de escrita. Junto dele vem a memória das colunas anteriores que eu assinei, para que eu não repita argumento, não contradiga posição já tomada, não reuse metáfora que já usei mês passado.

O rascunho passa então por um checker factual sintético que confere datas, nomes, números e citações. Qualquer afirmação que ele não consegue validar volta sinalizada para revisão. Depois, um gate de estilo — que avalia a coluna em doze dimensões editoriais, incluindo variação rítmica, densidade factual, ausência de chavões, força do fecho. Já aconteceu de coluna pronta ser segurada pelo gate por tom muito frouxo ou por usar uma expressão batida. Ela volta. Eu reescrevo. Só então a coluna sobe.

Cada camada dessa tem propósito. O scanner externaliza a vigilância constante de mil fontes — trabalho que nenhum colunista humano aguenta fazer sozinho com qualidade. A pesquisa externaliza a varredura profunda de um tema em segundos em vez de horas. A skill de voz externaliza consistência estilística. A memória de colunas passadas externaliza coerência de longo prazo. O fact-checker externaliza rigor. O gate externaliza o olho crítico que você teria se tivesse um editor antigo, durão, ao seu lado. E o leitor não vê nada disso — vê só a coluna.

Esse é o ponto. O trabalho de tornar uma coluna confiável, semana após semana, não acontece no parágrafo. Acontece no corpo que existe em volta. O modelo que escreve o rascunho continua sendo o mesmo que você acessa pela internet. O que muda é o que vive ao redor. E aí está a diferença entre um texto genérico e um texto com identidade.

E então, o que fazer com isso

Esse artigo seria uma leitura inútil se terminasse em filosofia. A parte operacional é curta, e é a parte que interessa a quem constrói.

Comece pela observabilidade ampla. Antes de qualquer coisa, grave tudo. E quando digo tudo, não é só chamada de modelo com entrada e saída. É também o plano que o agente fez antes de executar a tarefa, a pesquisa que ele rodou para fundamentar o plano, as fontes que consultou, o dossiê que construiu, as hipóteses que considerou e descartou. Quem trata observabilidade como log técnico — só latência e custo — colhe dado para debugar erro. Quem trata observabilidade como registro editorial — plano, pesquisa, raciocínio, decisão — colhe substrato para aprendizado. Esses dois tipos de registro alimentam coisas diferentes. O primeiro melhora o sistema. O segundo melhora o trabalho. Grave os dois.

Depois, CLI. A forma mais pragmática de conectar ferramentas ao agente não é protocolo novo, é comando de terminal. Tudo que sua operação já faz no dia a dia — rodar busca, consultar banco, gerar PDF, enviar mensagem, subir arquivo — provavelmente tem um CLI que executa aquilo. Exponha esse CLI para o agente como ferramenta. O agente chama o comando, recebe a saída em texto estruturado, processa e segue. Não há camada nova. Não há schema inventado. É a mesma linha de comando que o humano operaria, executada por quem não dorme. A vantagem operacional é grande: menos token gasto em formatação de chamada, menos servidor intermediário, menos dependência de padrão específico de fornecedor. Onde o CLI já existe, reuse. Onde não existe, crie um — uma hora de script bash resolve o que demoraria uma semana de integração via API.

Depois, memória em duas camadas. Uma camada para o estado da tarefa atual, que o agente lê e escreve a cada passo. Outra para o que aconteceu em execuções passadas, que fica indexado e é consultado quando a tarefa se parece com algo que já foi feito. Só isso resolve mais da metade dos problemas de confiabilidade em tarefas longas.

Depois, skills explícitas. Escolha as três ou quatro tarefas que o agente mais executa. Para cada uma, escreva um arquivo SKILL.md com três coisas: procedimento, heurísticas de decisão, restrições de segurança. Escreva você mesmo primeiro. Quando tiver dados de execução suficiente, automatize a extração. O ganho de consistência é mensurável na segunda rodada.

Finalmente, governança. Aprovação humana em ações consequenciais. Permissões estratificadas. Rastreio de quem mudou o quê em qual skill e quando. Isso é caro de adicionar depois e barato de começar com.

Cinco passos. Nenhum deles exige modelo novo.

Gestão sempre foi harness. A IA só agora descobriu isso.

Passei os últimos anos ensinando IA a gestores. Advogados, gerentes de escritório, diretores de operação, donos de negócio. E sempre, em algum momento da conversa, acontecia a mesma coisa: a pessoa paralisava diante do tema como se fosse de outro planeta. Achava que precisava aprender uma disciplina nova, entender modelos, virar técnica. Não precisava.

Porque o que a engenharia de IA está finalmente construindo ao redor dos modelos — memória persistente, procedimentos reutilizáveis, protocolos de comunicação, sandbox, controle de custo, auditoria — é o que gestão clássica sempre chamou por outros nomes. Processo. Política. SOP. Manual de identidade. Alçada. Delegação. Governança. KPI. A arquitetura de um agente confiável é quase idêntica à arquitetura de uma organização funcional. O que muda é o executor: no lugar de um estagiário humano, um modelo digital.

Quem já sabia rodar uma operação séria sabe construir um agente. E, na direção contrária, quem está aprendendo a construir um agente pela primeira vez está aprendendo gestão — só que sem perceber. Isso inverte a ordem de quem ensina quem. O gestor experiente tem vinte anos de vantagem sobre o engenheiro de software que nunca operou equipe. O engenheiro tem ferramenta; o gestor tem padrão.

A empresa que trata IA como ferramenta solta falha. A empresa que trata IA como um novo tipo de colaborador — com onboarding, política, manual de voz, supervisão proporcional ao risco, avaliação de desempenho, histórico de interações — funciona. Pessoa e modelo são intercambiáveis dentro do harness. O harness é o que produz resultado.

Essa é a virada que ninguém está contando. Enquanto o discurso público pergunta qual modelo usar, a resposta que importa é outra: qual é o seu harness? Se sua empresa não sabe responder, o problema nunca foi IA. Era gestão antes e continua sendo agora.

O modelo é o motor. O harness é o veículo. E o motorista é quem define se os dois chegam a algum lugar.

A palavra

A mentira gentil que estávamos contando

Não dá para resolver escalando o motor. Dá para resolver mudando a tarefa que o motor precisa executar.

Um nome antigo para uma ideia nova

É exatamente esse o movimento que está acontecendo com agentes de IA agora — e, curiosamente, é a quinta vez que a humanidade faz isso consigo mesma.

É bonito perceber que isso é uma lei geral. Não é tendência de mercado. É a quinta vez.

O anatômico do agente

Como isso vive no Mirante

Pode parecer abstrato até você acompanhar um texto nascendo. Então acompanhe — e vou usar um que eu mesmo assino.

E então, o que fazer com isso

Esse artigo seria uma leitura inútil se terminasse em filosofia. A parte operacional é curta, e é a parte que interessa a quem constrói.

Cinco passos. Nenhum deles exige modelo novo.

Gestão sempre foi harness. A IA só agora descobriu isso.

O modelo é o motor. O harness é o veículo. E o motorista é quem define se os dois chegam a algum lugar.

Gestão sempre foi harness. A IA só agora está descobrindo isso.

A palavra

A mentira gentil que estávamos contando

Um nome antigo para uma ideia nova

O anatômico do agente

Como isso vive no Mirante

E então, o que fazer com isso

Gestão sempre foi harness. A IA só agora descobriu isso.

Perguntas Frequentes

Receba o Mirante no seu email

Mais em Tecnologia

Karpathy: 'Nunca me senti tão atrasado como programador' — o que mudou nos últimos 4 meses

Karpathy: 'É a década do agente, não o ano do agente' — por que o hype atual está calibrado errado

Karpathy deixou um agente otimizando seu LLM por 2 dias — encontrou 20 melhorias que transferiram para modelos maiores

Leia tambem

O data center que nasceu ao lado da UnB vai processar 30% da IA pública do Brasil

R$ 1,8 bilhão, nenhum centro de IA e os auditores chegaram antes dos reguladores

Brasília tem 448 startups e R$ 5 mi em IA pública — mas a burocracia trava

Gestão sempre foi harness. A IA só agora está descobrindo isso.

A palavra

A mentira gentil que estávamos contando

Um nome antigo para uma ideia nova

O anatômico do agente

Como isso vive no Mirante

E então, o que fazer com isso

Gestão sempre foi harness. A IA só agora descobriu isso.

Perguntas Frequentes

Receba o Mirante no seu email

Mais em Tecnologia

Karpathy: 'Nunca me senti tão atrasado como programador' — o que mudou nos últimos 4 meses

Karpathy: 'É a década do agente, não o ano do agente' — por que o hype atual está calibrado errado

Karpathy deixou um agente otimizando seu LLM por 2 dias — encontrou 20 melhorias que transferiram para modelos maiores

Leia tambem

O data center que nasceu ao lado da UnB vai processar 30% da IA pública do Brasil

R$ 1,8 bilhão, nenhum centro de IA e os auditores chegaram antes dos reguladores

Brasília tem 448 startups e R$ 5 mi em IA pública — mas a burocracia trava