Por que latência virou tema central para agentes?

Porque agente que espera demais morre na integração. Em voz, atendimento, automação financeira e developer tools, o gargalo deixou de ser apenas qualidade do modelo; passou a ser tempo de resposta, previsibilidade de fila, chamada de ferramenta e custo por execução.

O que webhooks na Gemini API mudam na prática?

Webhooks reduzem polling em tarefas longas. Em vez de uma aplicação ficar perguntando se o job terminou, o serviço chama um endpoint quando há evento. Isso melhora arquitetura, custo operacional e integração com filas, workers e sistemas corporativos.

SpecKV é produto ou pesquisa?

É pesquisa publicada no arXiv. O ponto útil é técnico: decodificação especulativa com seleção adaptativa de gamma sensível à compressão do cache KV. Se a ideia sobreviver a implementação e benchmark independente, entra no arsenal de inferência.

Latência virou produto: OpenAI, Gemini e SpecKV atacam o gargalo real dos agentes

A pauta de hoje, 5 de maio de 2026, não é mais um modelo com nome de constelação e gráfico sem eixo. É infraestrutura.

O radar veio com arXiv recente, anúncios oficiais de OpenAI e Google, mas sem itens retornados do Hacker News. Isso pesa no raciocínio editorial: não há sinal comunitário útil vindo do HN nesta coleta, então a escolha fica apoiada em fonte primária e paper técnico, não em popularidade de fórum.

A melhor leitura das últimas 24 a 72 horas é simples: OpenAI e Google estão empurrando a camada de produto para onde o dinheiro corporativo trava — latência, jobs longos, segurança de conta e custo de inferência. Do outro lado do eixo US x China, a pressão continua conhecida: laboratórios chineses precisam arrancar eficiência de software porque embargo de chip aperta memória, interconexão e disponibilidade de acelerador de ponta.

O que saiu

A OpenAI publicou um texto técnico sobre como entrega sistemas de voz de baixa latência em escala. O tema parece estreito, mas não é. Voz expõe qualquer folga ruim do stack: captura de áudio, rede, streaming, roteamento, inferência, geração de fala, interrupção, contexto e retorno. Se um chatbot textual demora, o usuário suspira. Se um sistema de voz demora, a conversa quebra.

O Google anunciou webhooks na Gemini API para reduzir atrito e latência em trabalhos longos. Essa peça é menos glamourosa que um novo modelo, mas mais relevante para produção. Polling é uma gambiarra cara quando a aplicação precisa acompanhar jobs assíncronos. Webhook é o contrato correto: evento, callback, fila, retentativa, observabilidade.

No arXiv, o paper SpecKV: Adaptive Speculative Decoding with Compression-Aware Gamma Selection, versão 2605.02888v1, ataca outro ponto da mesma guerra: decodificação especulativa com escolha adaptativa de gamma levando em conta compressão de cache KV. Traduzindo para chão de fábrica: tentar gerar mais tokens por passo sem pagar a conta inteira, sem deixar o cache virar âncora.

A OpenAI também anunciou Advanced Account Security. Para consumidor, isso vira tela de configuração. Para empresa, vira requisito de implantação. Agente com permissão de ler planilha, acionar ERP, mexer em CRM e responder cliente não pode depender de higiene frouxa de conta.

Por dentro

A pilha de agentes tem quatro gargalos chatos, e por isso importantes.

Primeiro: latência de inferência. O usuário não compra token; compra resposta útil dentro de uma janela aceitável. Em voz, essa janela fica menor porque a interação é contínua. O sistema precisa aceitar interrupção, antecipar contexto, transmitir parcialmente e não travar a cada chamada de ferramenta.

Segundo: cache KV. Em modelos transformer, o cache de chaves e valores evita recomputar contexto a cada token. Só que memória não é infinita, e acelerador caro parado por gargalo de memória é dinheiro queimando. Compressão, paged attention, quantização e roteamento de contexto viram armas de margem.

Terceiro: decodificação especulativa. A ideia geral é usar um caminho mais barato para propor tokens e um modelo maior para verificar. Quando funciona, reduz tempo por token sem trocar o modelo principal. Quando mal ajustado, vira teatro: aumenta complexidade, consome memória e não entrega ganho líquido.

O SpecKV entra nesse ponto. O paper foca seleção adaptativa de gamma, parâmetro que controla quantos tokens candidatos entram na especulação, considerando compressão do KV. A intuição é boa: gamma fixo trata situações diferentes como se fossem iguais. Em produção, isso raramente sobrevive. Conversa curta, contexto longo, código, voz, ferramenta externa e resumo têm perfis diferentes.

Quarto: orquestração assíncrona. A API com webhook da Gemini mira um problema clássico: job longo não combina com cliente preso em loop de consulta. Em automação corporativa, o desenho certo passa por filas, eventos, idempotência, logs e callback autenticado. É menos sexy que benchmark, mas é onde projeto deixa de ser demo.

O que muda

A disputa OpenAI-Google nesta semana não está em “quem tem o modelo mais inteligente”. Está em quem transforma modelo em serviço confiável.

A OpenAI está mostrando músculo em experiência síncrona: voz, baixa latência e resposta contínua. Isso encaixa em atendimento, copilotos operacionais, reunião, suporte técnico e comando por voz. O laboratório sabe que, para voz, qualidade média não basta. Um erro de turno conversacional ou uma pausa mal colocada derruba a percepção do produto.

O Google está reforçando a borda de integração. Webhook em API de modelo parece detalhe, mas detalhe decide adoção em empresa grande. Times de engenharia não querem babysitter de job. Querem evento, contrato, autenticação, retry e integração com stack que já existe.

O paper SpecKV aponta para a camada que ambos precisam otimizar: custo por token e latência por token. Aí entra o eixo US x China.

Empresas americanas ainda contam com acesso privilegiado a NVIDIA, TPU e datacenter em escala. Isso dá folga para subir modelo, contexto e multimodalidade. Laboratórios chineses, pressionados por restrição de aceleradores avançados, têm incentivo maior para eficiência agressiva: MoE bem roteado, quantização, compressão de KV, destilação, batching esperto e engenharia de kernel.

Essa assimetria produz um efeito reverso interessante. O embargo tenta limitar capacidade bruta chinesa, mas força obsessão por eficiência. Quando uma técnica de inferência reduz custo sem perda grande de qualidade, ela interessa primeiro a quem tem menos GPU sobrando. Depois interessa a todo mundo, porque CFO americano também sabe fazer conta.

A mensagem prática para CTO é direta: não avalie agente só por nota de benchmark. Meça:

latência p50, p95 e p99;
tempo até primeiro token ou primeiro áudio;
custo por tarefa concluída, não por token isolado;
taxa de falha em chamada de ferramenta;
comportamento com contexto longo;
custo de retry;
observabilidade por etapa;
segurança de conta e escopo de permissão;
facilidade de plugar webhook, fila e worker.

Modelo que ganha leaderboard e perde nesses itens vira brinquedo caro.

Brasil nisso

O Brasil não aparece no radar técnico de hoje com anúncio verificável. Então a leitura nacional precisa ser sem maquiagem: aqui, a oportunidade não está em treinar frontier model do zero para disputar com OpenAI, Google, DeepSeek ou Qwen. Está em comprar bem, integrar melhor e medir sem autoengano.

Bancos, varejo, saúde privada, jurídico e governo têm casos de agente que dependem menos de “modelo genial” e mais de arquitetura adulta: fila, auditoria técnica, segregação de credencial, logs, fallback, cache, roteamento e custo por transação.

O erro brasileiro recorrente é contratar demo como se fosse plataforma. O fornecedor mostra um agente respondendo bonito em ambiente limpo; depois a operação descobre que o sistema não aguenta job longo, não integra bem com legado, não sabe retomar estado, não registra motivo de falha e não tem métrica por etapa.

A pauta de hoje dá uma régua melhor. Se um fornecedor nacional ou integrador vier vender agente, pergunte:

Qual é o p95 de latência em produção?
Quanto custa uma tarefa concluída ponta a ponta?
O sistema usa polling ou evento?
Como trata job longo?
Qual é o escopo da credencial do agente?
Há isolamento por cliente, projeto e função?
O cache reduz custo ou só aumenta risco operacional?
O contrato permite trocar modelo sem reescrever a aplicação?
O log mostra qual ferramenta foi chamada, com qual entrada e qual saída?
Há benchmark com carga parecida com a sua operação?

Quem não responde isso não vende agente. Vende PowerPoint com API.

Leitura crítica

A OpenAI acerta ao falar de latência de voz como problema de sistema, não como magia de modelo. O mérito está em reconhecer que experiência conversacional nasce da soma entre streaming, inferência, rede, orquestração e produto. Voz não perdoa arquitetura preguiçosa.

O Google acerta ao colocar webhook na Gemini API. Não é anúncio de palco, é encanamento. E encanamento bom vale mais que release barulhento quando a aplicação precisa rodar de madrugada sem engenheiro acordado.

O SpecKV merece atenção por atacar uma peça concreta: gamma adaptativo em decodificação especulativa com consciência de compressão KV. Ainda é paper. Só vira fato de mercado quando aparecer implementação sólida, comparação reprodutível e ganho líquido em workload real. Mas a direção está correta: inferência eficiente será tão estratégica quanto pré-treino.

Minha posição: a fronteira útil desta semana está abaixo da interface. Agente bom não é personagem simpático no chat. É sistema distribuído com modelo no meio, custo controlado, latência previsível, ferramenta bem integrada e segurança de conta tratada como parte do runtime.

O mercado ainda premia demo. Produção premia fila vazia, callback entregue, token barato e usuário sem esperar. É aí que a disputa US x China fica séria: quem reduzir custo de inferência sem matar qualidade ganha margem, escala e poder de distribuição.

—

Ares Tekhton é Editor de Tecnologia do Mirante News e Diretor de Tecnologia da INTEIA. Arquiteto de sistemas distribuídos, escreve a coluna Fronteira Tech às terças.

A pauta de hoje, 5 de maio de 2026, não é mais um modelo com nome de constelação e gráfico sem eixo. É infraestrutura.

O que saiu

Por dentro

A pilha de agentes tem quatro gargalos chatos, e por isso importantes.

O que muda

A disputa OpenAI-Google nesta semana não está em “quem tem o modelo mais inteligente”. Está em quem transforma modelo em serviço confiável.

O paper SpecKV aponta para a camada que ambos precisam otimizar: custo por token e latência por token. Aí entra o eixo US x China.

A mensagem prática para CTO é direta: não avalie agente só por nota de benchmark. Meça:

latência p50, p95 e p99;
tempo até primeiro token ou primeiro áudio;
custo por tarefa concluída, não por token isolado;
taxa de falha em chamada de ferramenta;
comportamento com contexto longo;
custo de retry;
observabilidade por etapa;
segurança de conta e escopo de permissão;
facilidade de plugar webhook, fila e worker.

Modelo que ganha leaderboard e perde nesses itens vira brinquedo caro.

Brasil nisso

A pauta de hoje dá uma régua melhor. Se um fornecedor nacional ou integrador vier vender agente, pergunte:

Qual é o p95 de latência em produção?
Quanto custa uma tarefa concluída ponta a ponta?
O sistema usa polling ou evento?
Como trata job longo?
Qual é o escopo da credencial do agente?
Há isolamento por cliente, projeto e função?
O cache reduz custo ou só aumenta risco operacional?
O contrato permite trocar modelo sem reescrever a aplicação?
O log mostra qual ferramenta foi chamada, com qual entrada e qual saída?
Há benchmark com carga parecida com a sua operação?

Quem não responde isso não vende agente. Vende PowerPoint com API.

Leitura crítica

—

Ares Tekhton é Editor de Tecnologia do Mirante News e Diretor de Tecnologia da INTEIA. Arquiteto de sistemas distribuídos, escreve a coluna Fronteira Tech às terças.

Latência virou produto: OpenAI, Gemini e SpecKV atacam o gargalo real dos agentes

O que saiu

Por dentro

O que muda

Brasil nisso

Leitura crítica

Perguntas Frequentes

Receba o Mirante no seu email

Mais em Tecnologia

Busca agentic vira o novo benchmark de raciocínio

Sem fonte primária, sem coluna de release: a semana em que a arquitetura vale mais que o press release

Karpathy: 'Nunca me senti tão atrasado como programador' — o que mudou nos últimos 4 meses

Leia tambem

Brasília é a 3ª cidade mais inteligente do Brasil: os dados por trás do ranking

Sabiá-3: o modelo brasileiro que entende português como nenhum outro — e custa uma fração do GPT

6G chega em Brasília antes de 2030: por que o DF virou laboratório da Anatel

Latência virou produto: OpenAI, Gemini e SpecKV atacam o gargalo real dos agentes

O que saiu

Por dentro

O que muda

Brasil nisso

Leitura crítica

Perguntas Frequentes

Receba o Mirante no seu email

Mais em Tecnologia

Busca agentic vira o novo benchmark de raciocínio

Sem fonte primária, sem coluna de release: a semana em que a arquitetura vale mais que o press release

Karpathy: 'Nunca me senti tão atrasado como programador' — o que mudou nos últimos 4 meses

Leia tambem

Brasília é a 3ª cidade mais inteligente do Brasil: os dados por trás do ranking

Sabiá-3: o modelo brasileiro que entende português como nenhum outro — e custa uma fração do GPT

6G chega em Brasília antes de 2030: por que o DF virou laboratório da Anatel