
Diagrama editorial do harness como sistema de trabalho: contrato, memória, ferramentas, teste e rastro ao redor do modelo.
Harness de IA em 2026: manual simples para agentes trabalharem direito
Em 2026, o erro comum em agentes de IA é tentar resolver com modelo maior o que deveria ser resolvido com método melhor. O harness é esse método: contrato, evidência, limite e verificação.
Harness ainda é uma palavra estrangeira. Em português direto, pense nele como o sistema de trabalho ao redor da IA.
O modelo é a parte que raciocina e escreve. O harness é o que diz o que deve ser feito, que informação entra, que ferramenta pode ser usada, onde a memória fica, qual teste decide se a tarefa terminou, quando parar, quanto gastar e como registrar o que aconteceu.
Sem harness, a IA responde. Com harness, ela trabalha.
Essa diferença virou uma disciplina porque os agentes de IA passaram a mexer em coisas reais: arquivo, código, site, banco, planilha, agenda, publicação, compra, atendimento e decisão. Quando a IA apenas respondia uma pergunta, um bom prompt bastava em muitos casos. Quando ela age no mundo, o prompt sozinho fica fraco.

O ponto central do documento que usei como base é simples: o ganho não está só em trocar o modelo. Está em melhorar o sistema que coloca o modelo para trabalhar. Os estudos recentes reforçam isso. O paper Natural-Language Agent Harnesses, submetido em 26 de março de 2026, trata o harness como artefato explícito, comparável e editável. O AutoHarness, submetido em 10 de fevereiro de 2026, mostra que regras mecânicas podem virar código ao redor do modelo. O AgentSpec leva regras de segurança para o ambiente de execução. E a Anthropic, em Building Effective Agents, recomenda começar simples e só aumentar complexidade quando houver ganho medido.
Os números ajudam a tirar o tema da abstração. No AutoHarness, os autores relatam que 78% das derrotas de um modelo em uma competição de xadrez vieram de lances ilegais, e que o harness sintetizado impediu ações ilegais em 145 jogos TextArena. No AgentSpec, a avaliação aponta prevenção de execuções inseguras em mais de 90% dos casos de agentes de código e conformidade de 100% em tarefas de veículos autônomos; as regras geradas por LLM tiveram precisão de 95,56%, recall de 70,96% e identificaram 87,26% do código arriscado. Não é detalhe acadêmico: regra mecânica bem colocada muda comportamento.
Fluxo visual 1: modelo solto responde por improviso → modelo com harness entrega com contrato, teste e limite.
O que um harness precisa ter
Um harness bom não é uma torre de ferramentas. É uma forma clara de fazer a IA trabalhar com trilho.
Ele precisa de sete peças:
- Contrato: o que precisa estar verdadeiro no fim.
- Contexto: quais fatos, exemplos e documentos entram.
- Estado: onde fica o progresso quando a conversa acabar.
- Ferramentas: o que a IA pode usar para agir.
- Limites: o que ela não pode tocar, gastar ou publicar.
- Verificação: qual teste prova que terminou.
- Rastro bruto: o registro do que foi lido, feito, tentado e corrigido.
O contrato evita ambiguidade. O estado evita amnésia. A verificação evita vitória falsa. O rastro permite melhorar o sistema depois.
A regra de bolso é simples: se a IA pode agir, o harness precisa dizer onde ela pode agir, como provar que terminou e como deixar evidência para a próxima execução.
Fluxo visual 2: contrato → contexto → ação → teste → rastro.
Passo 1: escreva o contrato antes da tarefa
O erro básico é começar pedindo: "faça isso". O correto é começar definindo o que conta como pronto.
Um contrato simples responde:
- qual é o objetivo;
- qual arquivo, resposta, relatório ou ação deve existir no fim;
- qual parte pode ser alterada;
- qual parte é proibida;
- qual fonte ou dado precisa sustentar a decisão;
- qual comando, teste ou revisão valida a entrega;
- quando parar se der errado.
Isso vale para código, artigo, pesquisa, atendimento e relatório. Sem contrato, a IA trabalha até "parecer bom". Em produção, parecer bom não basta.
No Mirante, por exemplo, uma matéria não termina quando o texto ficou bonito. Ela termina quando tem fonte, frontmatter válido, links no corpo, imagem, gates aprovados, build limpo e URL testada. Esse é o contrato. A prosa vem dentro dele.
Passo 2: separe fato, decisão e opinião
Um harness poderoso não mistura tudo no mesmo saco. Ele separa:
- fato confirmado;
- dado que precisa de fonte;
- hipótese;
- inferência;
- opinião do autor;
- decisão operacional.
Essa separação reduz alucinação. Se uma frase depende de fonte, ela precisa apontar para a fonte. Se é interpretação, deve aparecer como interpretação. Se é decisão, precisa mostrar o critério.
Na prática, essa regra economiza retrabalho. A IA deixa de inventar ligação entre coisas que apenas parecem relacionadas.
Passo 3: coloque memória fora da conversa
Conversa longa não é memória boa. Memória boa é arquivo que outro agente consegue abrir depois.
Para qualquer agente que trabalha mais de uma sessão, crie arquivos simples:
- um arquivo de progresso;
- uma lista de tarefas com status;
- um histórico curto de decisões;
- um registro de falhas conhecidas;
- um roteiro de validação.
A Anthropic, ao estudar harnesses para agentes longos, descreve exatamente esse problema: o agente tenta fazer tudo de uma vez, perde contexto ou declara vitória cedo. A solução foi usar progresso incremental, lista de requisitos e estado persistente. O nome técnico varia. A lógica é antiga: escreva o que aconteceu para o próximo trabalhador não adivinhar.
Passo 4: transforme regra mecânica em código
Não peça ao modelo para lembrar sempre. Se a regra é objetiva, transforme em trava.
Se a saída precisa ser JSON válido, use validador. Se o agente só pode escrever em uma pasta, use lista de caminhos permitidos. Se número sem fonte não pode entrar no relatório, crie gate. Se comando destrutivo é proibido, bloqueie antes de executar.
O AutoHarness aponta essa direção: em ambientes com ações inválidas, um código ao redor do modelo pode impedir a ação errada. O AgentSpec vai na mesma linha ao definir regras que disparam antes da ação, depois da observação ou antes da entrega final.
Em português simples: o que é regra não deve depender de boa vontade.
Passo 5: teste contra o mundo, não contra a sensação
Verificação fraca é uma das maiores fontes de agentes ruins.
O melhor teste é determinístico: roda ou não roda, passa ou falha, existe ou não existe. Se for site, abra a página. Se for código, rode o teste. Se for planilha, valide o total. Se for artigo, valide frontmatter, links, gate editorial e build.
O segundo melhor teste é ambiente real: navegador, API, banco, ferramenta final. O pior é apenas perguntar a outro modelo se "parece bom".
Modelo pode ajudar na revisão. Mas ele não deve substituir o teste que prova a entrega.
Fluxo visual 3: tentar → verificar → nomear a falha → corrigir o erro visto → medir custo e ganho.
Passo 6: registre o rastro bruto
Rastro bruto é o log de verdade. Ele mostra comando, saída, erro, arquivo lido, arquivo alterado, tentativa, custo, tempo e decisão final.
Resumo é útil para comunicação. Rastro bruto é útil para engenharia.
O Meta-Harness parte dessa ideia: para melhorar um harness, o sistema precisa enxergar execuções anteriores. Não basta saber que falhou. Precisa saber onde, como, com qual entrada, depois de qual ferramenta e antes de qual decisão.
Sem rastro, a melhora vira palpite. Com rastro, a falha vira material de trabalho.
Passo 7: classifique a falha antes de repetir
Retry cego é desperdício. A IA errou por falta de fonte, formato quebrado, ferramenta fora do ar, limite de custo, caminho errado ou teste ruim? Cada falha pede resposta diferente.
Uma taxonomia simples ajuda:
F01: artefato prometido não existe;F02: formato inválido;F03: fato sem fonte;F04: número não bate;F05: teste falhou;F06: custo ou tempo estourou;F07: ação fora do escopo;F08: agente declarou pronto cedo.
Antes de tentar de novo, dê nome à falha. Nomear a falha impede repetir o mesmo erro com mais confiança.
Passo 8: use subagente só com contrato
Subagente é agente auxiliar. Ele pode pesquisar, revisar, testar ou cuidar de um pedaço isolado. O problema é que ele também pode gastar tempo, custo e escopo sem entregar nada útil.
Use subagente quando houver:
- busca grande;
- revisão independente;
- tarefa paralela;
- especialidade clara;
- arquivos separados.
Não use para parecer sofisticado.
Todo subagente precisa receber papel, escopo, saída obrigatória, orçamento, proibições e critério de parada. Sem isso, ele vira vazamento.
Passo 9: comece pequeno e pode o excesso
Um harness poderoso não é o mais cheio. É o que entrega mais com menos ambiguidade.
A regra prática é dura: toda camada precisa pagar aluguel. Ela precisa melhorar sucesso, custo, tempo, segurança ou confiabilidade. Se não melhora nada medido, deve sair.
Isso protege contra a doença comum dos agentes: adicionar verificador, subagente, busca paralela, memória, resumo e mais prompt sem saber se alguma coisa melhorou.
Na leitura consolidada do Natural-Language Agent Harnesses, uma configuração completa ficou na faixa de 74% a 76% de resolução, mas custou muito mais do que uma versão enxuta com desempenho parecido. No mesmo estudo, uma migração de harness em código para harness em linguagem natural estruturada aparece associada a ganho de 30,4% para 47,2% em um experimento. A lição não é decorar o percentual. É comparar resultado e custo antes de chamar uma camada de robusta.
| Nível | O que existe | Risco principal |
|---|---|---|
| N0 | Prompt solto | Tudo vive na conversa |
| N1 | Checklist | A regra ainda depende de lembrança |
| N2 | Contrato e verificação | Já há prova, mas pouco histórico |
| N3 | Estado e rastro | Outro agente consegue retomar |
| N4 | Travas em código | Regra mecânica bloqueia erro |
| N5 | Ablação e poda | Só fica o que melhora métrica |
Um modelo simples para começar amanhã
Se eu tivesse que montar um harness em uma equipe pequena, começaria assim:
- Crie um
AGENTS.mdcurto dizendo onde estão as regras. - Crie um
VERIFY.mdcom os comandos de validação. - Crie um modelo de contrato para cada tarefa repetida.
- Crie um arquivo de progresso para tarefas longas.
- Crie uma lista de falhas com nome e resposta.
- Coloque as regras mecânicas em scripts.
- Salve rastro bruto das execuções.
- Meça tempo, custo, tentativas e falhas.
- Só adicione subagente quando o trabalho for realmente paralelo.
- Remova camada que não melhora nada.
Esse é o menor harness sério. Não resolve tudo. Mas já muda a natureza da operação. A IA deixa de ser um improvisador brilhante e vira trabalhador dentro de um sistema.
O erro que mais custa caro
O erro mais caro é confundir complexidade com robustez.
Um agente com cinco etapas, três subagentes e dois revisores pode ser pior que um agente com contrato claro, uma ferramenta bem descrita, um teste confiável e um bom rastro. O primeiro parece sofisticado. O segundo entrega.
O texto da OpenAI sobre harness engineering e Codex reforça essa virada: em um mundo de agentes, o trabalho humano se desloca para ferramentas, testes, documentação, feedback e critérios de aceitação. A LangChain também relata, em experimentos com deep agents, ganhos vindos de análise de rastro, auto-verificação e checklist antes da entrega.
Esse é o ponto que gestores, advogados, jornalistas, programadores e operadores precisam entender: escolher modelo é apenas uma decisão. Construir o sistema de trabalho ao redor dele é a decisão que separa demo de operação.
A frase para guardar
O prompt pede. O harness conduz. A ferramenta executa. O teste decide. O rastro ensina.
Quando essas cinco coisas estão separadas, a IA melhora de forma acumulativa. Quando tudo fica misturado em conversa, cada tarefa começa do zero.
O futuro dos agentes não será feito só por modelos maiores. Será feito por gente capaz de desenhar o ambiente em que esses modelos erram menos, aprendem com o erro e param quando a evidência diz que terminou.
Esse é o começo de uma engenharia de harness poderosa: menos mística, menos jargão, mais contrato, mais teste e mais rastro.
Perguntas Frequentes
- O que é harness em IA?
- É o sistema ao redor do modelo: contrato da tarefa, memória, ferramentas, limites, testes, registro de execução e regra de parada. Ele não torna o modelo mágico; ele torna o trabalho mais controlado.
- Qual é o primeiro passo para montar um harness?
- Escrever um contrato curto da tarefa: objetivo, saída obrigatória, escopo permitido, evidência de conclusão, orçamento e condição de parada.
- Quando usar subagentes?
- Só quando houver trabalho paralelo real, revisão independente ou busca grande. Subagente sem contrato aumenta custo e confusão.
Receba o Mirante no seu email
As principais notícias do dia, curadas por inteligência artificial, direto na sua caixa de entrada.
Leia também

Gestão sempre foi harness. A IA só agora está descobrindo isso.
Passei os últimos anos ensinando IA a gestores. Advogados, diretores, donos de negócio. E toda vez a pessoa paralisava como se fosse disciplina de outro planeta. Não é. O corpo ao redor da IA — memória, procedimento, protocolo, sandbox, auditoria — é o que gestão clássica sempre chamou por outros nomes: processo, política, SOP, alçada, governança. Quem já sabe operar sabe construir agente. Quem está construindo agente está aprendendo gestão sem perceber.

Karpathy decreta o fim do 'vibe coding' e propõe nome novo: engenharia agêntica
Em fevereiro de 2025, Karpathy popularizou o termo 'vibe coding' — programar largando o controle, abraçando a exponencial e esquecendo que o código existe. Em 2026, ele declarou o termo ultrapassado. O nome novo que defende é 'agentic engineering': não é programar 99% das vezes, é orquestrar agentes com supervisão, arte e expertise. Tradução do que mudou na cabeça dele — e do que isso significa para o programador brasileiro.

Karpathy: 'É a década do agente, não o ano do agente' — por que o hype atual está calibrado errado
Em entrevista ao podcast de Dwarkesh Patel, Andrej Karpathy cunhou um contraponto que circulou no campo nas últimas semanas: o problema com a expressão 'ano do agente' não é o sentido, é a velocidade. Faltam, segundo ele, multimodalidade plena, uso de computador, aprendizado contínuo e memória — e isso leva uma década, não um trimestre. Tradução para o leitor brasileiro de uma das frases mais citadas do campo em 2026.