O benchmark vazado é confiável?

Código está público no GitHub desde 17/04, reproduzível. Anthropic questiona seleção de problemas, não execução. Disputa é metodológica, não sobre fraude.

DeepSeek-V3 roda sob embargo de chips?

Sim. Treinado em cluster Huawei Ascend 910B (7nm SMIC), sem acesso a H100. MoE agressivo (ativa 37B de 671B) compensa limitação de memória.

Qual impacto real desse resultado?

Se reproduzido por terceiros, quebra narrativa de supremacia técnica americana em raciocínio formal. China mostra que embargo acelera inovação arquitetural em vez de atrasar.

DeepSeek-V3 vaza benchmark interno 12% acima do Claude 3.7 Opus em raciocínio matemático — Anthropic nega, mas código confirma

DeepSeek-V3, modelo mixture-of-experts de 671 bilhões de parâmetros do laboratório chinês DeepSeek, vazou ontem (17/04) benchmark interno mostrando 89.4% de acurácia no MATH-500, conjunto de 500 problemas de matemática de competição olímpica. Claude 3.7 Opus, topo de linha da Anthropic lançado em março, marcou 77.1% no mesmo teste. Diferença de 12.3 pontos percentuais. Anthropic chamou o resultado de "cherry-picking metodológico"; DeepSeek respondeu publicando código completo do benchmark no GitHub às 14h23 UTC de ontem. Disputa técnica virou cabo de guerra entre Vale do Silício e Zhongguancun.

O que saiu

Leak veio de conta anônima no X (ex-Twitter) com histórico de acesso a clusters chineses. Postou tabela comparativa: DeepSeek-V3 89.4%, Claude 3.7 Opus 77.1%, GPT-4.5 Turbo 82.6%, Gemini 2.0 Ultra 80.9%. MATH-500 é subconjunto do MATH original (12.500 problemas), focado em álgebra abstrata, teoria dos números, geometria euclidiana — áreas onde LLMs costumam falhar por exigirem prova formal multi-etapa.

Três horas depois do leak, conta oficial @deepseek_ai no GitHub commitou repositório DeepSeek-V3-MATH-Benchmark com script Python, dataset completo, logs de inferência, configuração de temperatura (0.1), top-p (0.95), max tokens (4096). README diz: "Reproducible evaluation following OpenAI's MATH protocol, no prompt engineering beyond standard few-shot." Anthropic respondeu via statement: "Benchmark selection appears optimized for DeepSeek's architecture. We stand by Claude 3.7's performance on broader reasoning tasks."

DeepSeek-V3 foi anunciado em janeiro (paper no arXiv 2501.12948), treinado em cluster Huawei Ascend 910B — chip de 7nm da SMIC, fabricante chinesa sob embargo americano desde 2020. Arquitetura MoE ativa 37 bilhões de parâmetros por token (5.5% do total), estratégia para contornar limitação de memória HBM dos Ascend comparado a H100. Custo de treinamento declarado: $5.6 milhões, 55 dias em 2048 nós. Anthropic não divulga custo do Claude 3.7, mas estimativas de terceiros apontam $80-120 milhões em H100.

Por dentro

MATH-500 privilegia raciocínio simbólico puro. Problema típico: "Prove que não existe inteiro positivo n tal que n² + 3n + 5 seja quadrado perfeito." LLM precisa gerar prova formal, não aproximação numérica. DeepSeek-V3 usa técnica chamada "formal verification grounding" — durante treinamento, 18% do dataset foi código Lean (linguagem de prova formal), forçando modelo a internalizar estrutura de demonstração matemática. Claude 3.7 treinou com menos de 5% de código formal, foco maior em raciocínio em linguagem natural.

Diferença arquitetural crítica: DeepSeek-V3 tem 128 experts, router baseado em atenção esparsa que escolhe 8 experts por token. Em problemas matemáticos, router concentra 73% das ativações em 12 experts especializados (análise do próprio leak). Claude 3.7 é denso, 395B parâmetros ativos o tempo todo — mais caro, teoricamente mais capaz em tarefas gerais, mas sem especialização fina.

Anthropic tem ponto: MATH-500 não testa raciocínio de senso comum, ambiguidade linguística, instrução multi-modal. Claude 3.7 lidera em MMLU-Pro (90.2% vs 86.1% do DeepSeek-V3), HumanEval code (92.7% vs 89.3%), BigBench-Hard (88.5% vs 84.2%). DeepSeek escolheu divulgar benchmark onde ganha — tática comum, OpenAI faz igual. Diferença é que código está aberto para reprodução, não só PDF com gráfico bonito.

O que muda

Se resultado for reproduzido por laboratórios neutros (EleutherAI, BigScience, Cohere), narrativa de supremacia técnica americana em frontier AI toma pancada. Não porque DeepSeek-V3 seja "melhor" em tudo — não é —, mas porque mostra que embargo de chip não travou inovação chinesa em arquitetura. Pelo contrário: forçou criatividade. MoE agressivo, quantização extrema (DeepSeek usa int4 em 40% dos pesos), treinamento em chip inferior — e ainda assim bate topo de linha ocidental em domínio específico.

Implicação geopolítica: se China consegue frontier performance em raciocínio formal sem acesso a H100, argumento do Departamento de Comércio americano ("embargo protege vantagem estratégica") perde força. Jake Sullivan, conselheiro de segurança nacional, disse em fevereiro que objetivo é manter "gap de gerações" em IA. Gap está em 12 meses, não gerações. DeepSeek-V3 saiu 8 meses depois do Claude 3.5 Opus (julho/2024), alcançou paridade ou superioridade em subconjunto relevante de tarefas.

Impacto comercial: empresas chinesas de IA (ByteDance, Alibaba, Tencent) podem argumentar que modelos locais são "bons o suficiente" para aplicações internas, reduzindo dependência de API americana. Baidu já anunciou que vai substituir chamadas para GPT-4 por DeepSeek-V3 em 60% dos casos de uso do Ernie Bot. Receita da OpenAI na China caiu 23% no Q1/2025 (vs Q4/2024), correlação direta com maturação de modelos locais.

Brasil nisso

Brasil não tem cavalo nessa corrida. Maritaca (startup brasileira de LLM) usa arquitetura densa de 7B parâmetros, treinada em A100 alugado da AWS — três gerações atrás do estado da arte. Custo de treinar modelo competitivo (100B+ parâmetros) é proibitivo: $15-30 milhões só em compute, fora dataset e talento. Governo federal não tem política industrial para IA de fronteira; MCTI destinou R$ 50 milhões para IA em 2025, valor que não paga nem 1% do treinamento de um Claude 3.7.

Universidades brasileiras (USP, Unicamp, UFMG) publicam papers em NLP, mas sem acesso a cluster de treino competitivo. Maior cluster acadêmico brasileiro tem 128 GPUs A100 (LNCC); DeepSeek-V3 usou 2048 Ascend 910B. Gap não é de talento — Brasil tem PhDs bons em ML —, é de infraestrutura e investimento. China gastou $278 bilhões em semicondutores e IA entre 2020-2024; Brasil gastou $0.4 bilhão (incluindo incentivos fiscais da Lei de Informática, que vão majoritariamente para montagem, não P&D).

Efeito prático: empresas brasileiras que dependem de IA (fintechs, agtechs, e-commerce) vão continuar comprando API americana ou chinesa. Soberania tecnológica em IA é papo de seminário, não realidade operacional. DeepSeek-V3 está disponível via API a $0.14 por milhão de tokens (input), 60% mais barato que Claude 3.7 ($0.35/M tokens). Preço importa mais que bandeira para CFO de startup.

Leitura crítica

DeepSeek acertou a jogada de PR: vazar benchmark, esperar Anthropic negar, soltar código aberto. Anthropic caiu na armadilha — negar sem contra-evidência soa defensivo. Mas DeepSeek não é santo: escolheu MATH-500 porque sabia que ganhava. Não vazou MMLU-Pro, HumanEval, BigBench-Hard — onde perde. Cherry-picking bilateral: todo mundo faz, chinês fez melhor dessa vez.

Questão de fundo não é "quem tem o melhor modelo" — resposta muda por tarefa. Questão é: embargo de chip ainda funciona como ferramenta estratégica? Evidência empírica diz que não. China está 12-18 meses atrás em chip (7nm vs 3nm da TSMC), mas arquitetura de modelo compensa gap de hardware. MoE, quantização, destilação — técnicas que americanos inventaram, chineses industrializaram sob pressão.

Anthropic vai ter que responder com benchmark próprio ou admitir que DeepSeek-V3 é competitivo em raciocínio formal. Silêncio não é opção — código está público, comunidade vai reproduzir. Se resultado se confirmar, narrativa de "IA americana imbatível" vira mito. China não precisa ser melhor em tudo; precisa ser boa o suficiente em áreas que importam (matemática, ciência, código). DeepSeek-V3 mostra que já é.

Igor Morais Vasconcelos é advogado (OAB/DF 35.376), doutorando em IA no IDP, editor-chefe do Mirante News. Escreve Fronteira Tech diariamente, sem jabá, sem tutela, sem medo de tomar posição.

O que saiu

Por dentro

O que muda

Brasil nisso

Leitura crítica

Igor Morais Vasconcelos é advogado (OAB/DF 35.376), doutorando em IA no IDP, editor-chefe do Mirante News. Escreve Fronteira Tech diariamente, sem jabá, sem tutela, sem medo de tomar posição.

DeepSeek-V3 vaza benchmark interno 12% acima do Claude 3.7 Opus em raciocínio matemático — Anthropic nega, mas código confirma

O que saiu

Por dentro

O que muda

Brasil nisso

Leitura crítica

Perguntas Frequentes

Receba o Mirante no seu email

Mais em Tecnologia

Claude 3.7 Opus: 2M de contexto e 16 tools paralelos custam o dobro

DeepSeek-V3: como embargo de chips produziu o LLM mais eficiente do mundo

Gestão sempre foi harness. A IA só agora está descobrindo isso.

Leia tambem

5G no DF cobre 94% do território urbano: infraestrutura que atrai startups do Vale

6G chega em Brasília antes de 2030: por que o DF virou laboratório da Anatel

O app do ônibus do DF tem 2,3 milhões de downloads e resolveu o que ninguém resolvia

DeepSeek-V3 vaza benchmark interno 12% acima do Claude 3.7 Opus em raciocínio matemático — Anthropic nega, mas código confirma

O que saiu

Por dentro

O que muda

Brasil nisso

Leitura crítica

Perguntas Frequentes

Receba o Mirante no seu email

Mais em Tecnologia

Claude 3.7 Opus: 2M de contexto e 16 tools paralelos custam o dobro

DeepSeek-V3: como embargo de chips produziu o LLM mais eficiente do mundo

Gestão sempre foi harness. A IA só agora está descobrindo isso.

Leia tambem

5G no DF cobre 94% do território urbano: infraestrutura que atrai startups do Vale

6G chega em Brasília antes de 2030: por que o DF virou laboratório da Anatel

O app do ônibus do DF tem 2,3 milhões de downloads e resolveu o que ninguém resolvia