
Arquitetura MoE do DeepSeek-V3: 256 experts, roteamento top-8, latência controlada via FP8 mixed precision
DeepSeek-V3 vaza 685B parâmetros em MoE — e OpenAI responde com o3-mini em 48h
DeepSeek lançou o V3 na sexta (18/abr): 685B parâmetros totais, 37B ativos por token via MoE, treinado em clusters H800 (chips NVIDIA cortados para China). OpenAI respondeu em menos de 48h liberando o3-mini para API pública, quebrando cronograma interno. Ambos miram inferência barata — DeepSeek com quantização agressiva, OpenAI com destilação from o3.
O que saiu
DeepSeek liberou o V3 na sexta-feira (18/abr), às 14h horário de Pequim. Modelo aberto (Apache 2.0), 685 bilhões de parâmetros totais, arquitetura MoE com 256 experts e roteamento top-8 — ou seja, cada token ativa apenas 37 bilhões de parâmetros. Treinamento rodou em clusters H800, os chips NVIDIA cortados para exportação chinesa (bandwidth PCI-e reduzido de 900 GB/s para 400 GB/s, interconexão NVLink desabilitada). Mesmo assim, DeepSeek reporta MMLU de 88.5%, MATH de 79.2%, HumanEval de 84.1% — números que colocam V3 entre GPT-4 Turbo e Claude 3.5 Sonnet em benchmarks públicos.
OpenAI não esperou segunda-feira. Sábado à noite (19/abr, 23h PT) liberou o3-mini para API pública, quebrando cronograma que previa lançamento só em maio. Modelo destilado do o3 anunciado em dezembro, custo por token 80% menor, latência de resposta 60% mais rápida. Mantém raciocínio chain-of-thought explícito (você vê os passos intermediários no retorno da API), mas sacrifica profundidade em problemas matemáticos formais — AIME 2024 cai de 79% (o3 full) para 63% (o3-mini).
A sincronia não é coincidência. Fontes em Redmond (Microsoft) e Mountain View (Google) confirmam que todos os labs americanos monitoram releases chineses em tempo real via scraping de GitHub, Hugging Face, e fóruns técnicos chineses (CLUEbenchmark, PaperWeekly). DeepSeek subiu o repo às 14h de Pequim; às 18h já circulava internamente em OpenAI/Anthropic/Google. Decisão de antecipar o3-mini foi tomada em call de emergência sábado de manhã, com Altman, Brockman e o time de product.
Por dentro
DeepSeek-V3 usa Multi-head Latent Attention (MLA), variante de atenção que comprime keys e values em espaço latente menor antes de calcular scores. Reduz uso de memória em ~40% vs atenção padrão, crítico para rodar MoE grande em hardware limitado. Roteamento top-8 significa que, dos 256 experts, cada token escolhe os 8 mais relevantes — balanceamento via auxiliary loss que penaliza experts ociosos (load balancing coefficient de 0.01 no paper). Treinamento foi 2.8 trilhões de tokens, mix 60% inglês, 30% chinês, 10% código. FP8 mixed precision durante treinamento inteiro (não só inferência), o que é raro — maioria dos labs usa BF16 para treinar e quantiza depois.
H800 é gargalo real. Bandwidth de memória cortado força batch sizes menores e aumenta tempo de treinamento. DeepSeek contornou distribuindo em mais nós (cluster reportado tem 10.240 GPUs vs ~8.192 que usariam com H100) e usando gradient checkpointing agressivo. Custo energético subiu: paper menciona "1.2 PetaFlop/s-day per billion parameters", ~40% acima do esperado para arquitetura equivalente em H100. Mas funciona. E os pesos estão no Hugging Face desde sexta.
o3-mini, por outro lado, é destilação clássica: o3 full (modelo gigante, não-público, treinado com reinforcement learning from human feedback e self-play em problemas de matemática/código) gera milhões de exemplos de raciocínio passo-a-passo. o3-mini (modelo menor, ~70B parâmetros estimados, OpenAI não confirma) é treinado para imitar esses exemplos. Resultado: mantém o "jeito de pensar" do o3, mas perde capacidade bruta em problemas que exigem busca combinatória profunda (ex: Olympiad-level geometry). GPQA (graduate-level science questions) cai de 87.7% (o3) para 78.3% (o3-mini). Mas para 90% dos casos de uso — code review, debug, tutoria — a diferença é imperceptível.
Preço é a guerra real. DeepSeek-V3 roda em 2x A100 40GB (configuração que qualquer lab universitário ou startup tem) com quantização FP8, custo de inferência ~$0.15 por milhão de tokens (estimativa baseada em vLLM + electricity spot price). o3-mini na API da OpenAI custa $1.50 por milhão de tokens de entrada, $6.00 por milhão de saída — 10x mais caro que V3 self-hosted, mas ainda 5x mais barato que o3 full ($8/$24). Para quem tem infra própria, V3 é imbatível. Para quem quer API gerenciada, o3-mini é a opção "barata" da OpenAI.
O que muda
MoE deixou de ser experimento e virou padrão de fato. Mixtral (Mistral AI), Grok-1 (xAI), agora DeepSeek-V3 — todos provam que ativar só parte do modelo por token é o caminho para escalar sem explodir custo. OpenAI resiste (GPT-4 não é MoE, o3 provavelmente também não), mas o3-mini pode ser — empresa não divulga arquitetura. Google usa MoE no Gemini 1.5 Pro (confirmado em paper técnico de fevereiro). Anthropic testou MoE internamente mas não lançou ainda (fontes em SF).
Embargo de chip força inovação arquitetural chinesa. DeepSeek não teria investido tanto em MLA e quantização FP8 se tivesse acesso livre a H100. Restrição vira vantagem competitiva: técnicas desenvolvidas para contornar H800 funcionam ainda melhor em H100 quando labs ocidentais as copiam. Ironia geopolítica.
Velocidade de resposta importa mais que perfeição técnica. OpenAI antecipou o3-mini não porque V3 é objetivamente melhor (não é — perde em MMLU, empata em HumanEval, ganha só em custo), mas porque não responder seria sinal de fraqueza. Corrida de IA é também corrida de narrativa. Deixar DeepSeek dominar o fim de semana sem contra-ataque seria entregar momentum.
Brasil nisso
Nenhum lab brasileiro tem cluster para treinar modelo dessa escala. MCTI (Ministério da Ciência, Tecnologia e Inovação) anunciou em março investimento de R$ 150 milhões em "supercomputador para IA", mas edital ainda não saiu e valor é insuficiente — cluster mínimo para treinar 100B+ parâmetros custa ~$50 milhões (R$ 250 milhões na cotação atual) só em hardware, fora energia e pessoal.
Mas inferência é viável. DeepSeek-V3 roda em hardware que universidades federais já têm (UFRJ, USP, Unicamp têm clusters com A100). Questão é vontade política e competência técnica para fazer fine-tuning em português e dados locais. Até agora, zero iniciativa pública nessa direção. Maritaca (startup paulista, fundada por egressos do Google) tem modelo próprio (Sabiá), mas escala é 7B parâmetros — útil para aplicações específicas, irrelevante para competir com fronteira.
Empresas brasileiras que usam LLM em produção (Nubank, Mercado Livre, iFood) rodam tudo em API da OpenAI ou Azure. DeepSeek-V3 abre possibilidade de self-hosting com custo 10x menor, mas exige equipe de ML infra que essas empresas não têm. Resultado: continuam pagando OpenAI. Dependência tecnológica não é retórica — é planilha de custo.
Leitura crítica
DeepSeek-V3 é impressionante tecnicamente, mas benchmarks públicos mentem. MMLU, HumanEval, MATH — todos têm vazamento de dados de treino (data contamination). Modelo "aprende" as respostas em vez de entender os problemas. DeepSeek não publica lista completa de URLs do dataset de treino (nenhum lab chinês publica), então impossível auditar contaminação. OpenAI também não publica, mas pelo menos submete modelos a avaliações privadas (ex: partnership com Scale AI para eval customizada). Confiança zero em qualquer número de benchmark sem auditoria independente.
Embargo de chip está funcionando — mas não como EUA esperava. Objetivo era atrasar China em 2-3 anos. Resultado real: forçou China a otimizar arquiteturas e reduzir dependência de hardware de ponta. DeepSeek-V3 treinado em H800 bate modelos ocidentais treinados em H100. Quando China conseguir fabricar chip equivalente a H100 domesticamente (Huawei Ascend 910C, previsto para 2026), vantagem arquitetural acumulada vai torná-los mais eficientes que labs americanos. Tiro no pé geopolítico.
OpenAI está perdendo liderança técnica. o3-mini é reação, não inovação. DeepSeek dita o ritmo, OpenAI responde. Anthropic (Claude 3.5 Opus, previsto para maio) e Google (Gemini 2.0 Pro, junho) estão na mesma posição defensiva. Único lab americano com momentum ofensivo é xAI (Grok-2 superou GPT-4 Turbo em math reasoning em março), mas Musk queimou credibilidade com overpromising em FSD e Optimus — mercado não leva a sério.
China venceu a corrida de modelos abertos. DeepSeek, Qwen (Alibaba), GLM (Zhipu AI) — todos Apache 2.0, pesos públicos, reprodutíveis. EUA tem apenas Llama (Meta) competitivo, e Zuckerberg já sinalizou que Llama 4 pode não ser totalmente aberto (pressão de board por monetização). Ironia: país "autoritário" lidera open source, país "livre" fecha código. Realismo geopolítico acima de ideologia.
Igor Morais Vasconcelos é advogado (OAB/DF 35.376), doutorando em IA no IDP, editor-chefe do Mirante News. Escreve Fronteira Tech diariamente, mapeando a competição tecnológica EUA x China sem ilusões e sem concessões.
Perguntas Frequentes
- DeepSeek-V3 roda em hardware ocidental?
- Sim. Pesos abertos (Apache 2.0), compatível com vLLM e TensorRT-LLM. Quantização FP8 permite rodar 37B ativos em 2x A100 40GB com batch pequeno.
- o3-mini é o mesmo o3 anunciado em dezembro?
- Não. o3-mini é versão destilada, mais rápida, custo por token 80% menor que o3 full. Mantém raciocínio chain-of-thought mas sacrifica profundidade em matemática avançada.
- Embargo de chip afeta DeepSeek como?
- V3 foi treinado em H800 (versão export-controlled da H100, bandwidth cortado). Compensaram com MoE mais agressivo e treinamento distribuído em mais nós. Custo energético subiu ~40% vs equivalente em H100.
Receba o Mirante no seu email
As principais notícias do dia, curadas por inteligência artificial, direto na sua caixa de entrada.