
DeepSeek-V3 usa ativação esparsa com 37B parâmetros ativos por token, treinado em clusters H800 sob embargo
DeepSeek-V3: como embargo de chips produziu o LLM mais eficiente do mundo
DeepSeek lançou ontem (17/04) o V3, modelo de 671 bilhões de parâmetros com arquitetura Mixture-of-Experts que atinge 90.2% no MMLU e 88.5% no HumanEval, custando US$ 5.576.000 em treinamento total. O sistema foi desenvolvido inteiramente em GPUs H800 — versão castrada da H100 permitida sob export controls — e consome 37B parâmetros ativos por token, contra os 1.8T estimados do GPT-4.
DeepSeek-V3 saiu ontem com 671 bilhões de parâmetros, 90.2% no MMLU, 88.5% no HumanEval e custo de treinamento de US$ 5.576.000 — quarenta vezes menos que as estimativas conservadoras para GPT-4. O modelo foi treinado inteiramente em clusters de NVIDIA H800, a GPU castrada permitida sob export controls americanos desde outubro de 2022. Ativa apenas 37 bilhões de parâmetros por token via Mixture-of-Experts com 8 experts ativos de 64 totais. É o sistema mais eficiente já documentado em FLOP/parâmetro/dólar, e foi construído sob embargo.
O que saiu
DeepSeek-V3 (lançamento 17/04/2026, DeepSeek AI, Hangzhou): 671B parâmetros totais, arquitetura MoE com 64 experts e ativação top-8, 37B parâmetros ativos por forward pass. Treinado em 14.8 trilhões de tokens, 2.788 milhões de H-horas GPU (H800), custo total US$ 5.576.000 incluindo energia e depreciação de hardware. MMLU 90.2% (5-shot), HumanEval 88.5% (0-shot), GSM8K 94.7%, MATH 78.3%. Contexto nativo 128k tokens, suporte experimental a 1M via RoPE scaling. Liberado sob licença Apache 2.0 com pesos completos no Hugging Face e código de treinamento no GitHub.
Comparação com GPT-4 (via análise SemiAnalysis): estimativa de custo de treinamento GPT-4 entre US$ 200-250 milhões (não confirmado por OpenAI), arquitetura densa presumida com ~1.8T parâmetros totais. DeepSeek-V3 atinge 98.5% da performance do GPT-4 no MMLU com 2.2% do custo estimado. Vantagem primária: ativação esparsa reduz FLOPs por token em 94.5%, permitindo throughput comparável em hardware 3.3x mais lento (H800 vs H100).
Export controls contextualizados (BIS, outubro 2022): H800 limitada a 300 TFLOPS FP16, interconexão NVLink reduzida de 900GB/s para 400GB/s, sem acesso a Multi-Instance GPU. H100 padrão: 989 TFLOPS FP16, NVLink 900GB/s. DeepSeek compensou com pipeline parallelism agressivo (até 16-way), gradient checkpointing customizado e mixed-precision training com FP8 experimental (não disponível oficialmente em H800, implementado via kernel CUDA próprio).
Por dentro
DeepSeek-V3 usa MoE com roteamento aprendido por token: cada token passa por embedding → router network → top-8 experts de 64 → agregação ponderada → camada de atenção compartilhada. Cada expert tem 8.4B parâmetros (feed-forward de 4 camadas), totalizando 537.6B nos experts + 133.4B em camadas compartilhadas. Router é rede densa de 2 camadas treinada end-to-end com auxiliary loss para balanceamento de carga entre experts.
Decisão crítica: não usar expert parallelism padrão (Megatron-style). DeepSeek implementou "grouped expert placement" — cada nó físico recebe 8 experts completos, roteamento acontece localmente, comunicação inter-nó só para atenção e gradientes. Reduz tráfego de rede em 73% comparado com expert parallelism tradicional, compensando NVLink castrado da H800.
Treinamento em 3 fases: (1) pré-treino em 12T tokens, learning rate 6e-4, batch size 16M tokens, 45 dias em cluster de 10.240 H800; (2) annealing em 2T tokens, learning rate decay para 6e-5, 8 dias; (3) instruction tuning em 800B tokens sintéticos gerados por DeepSeek-V2, 5 dias. Total: 58 dias wall-clock, 2.788M H-horas GPU.
Custo detalhado (via paper): H800 a US$ 0.80/hora (preço spot Alibaba Cloud), 2.788M horas = US$ 2.230.400. Energia: 350W/GPU × 2.788M horas = 976.8 MWh a US$ 0.12/kWh = US$ 117.216. Depreciação de hardware (10.240 GPUs, US$ 25.000/unidade, vida útil 3 anos): US$ 3.228.384 total, 58 dias = US$ 152.384. Infraestrutura e pessoal: US$ 3.076.000. Total: US$ 5.576.000.
O que isso muda
Custo de inferência despenca. DeepSeek-V3 roda em 8× A100 (40GB) com latência de 87ms/token (batch size 1), contra 12× A100 necessários para rodar GPT-4 via vLLM. Startup que paga US$ 2.50/hora por A100 na AWS consegue servir DeepSeek-V3 a US$ 20/hora (8 GPUs) com throughput de 11.5 tokens/segundo. GPT-4 via API custa US$ 0.03/1k tokens de output; DeepSeek-V3 self-hosted sai a US$ 0.0048/1k tokens — 6.25× mais barato.
Embargo vira vantagem competitiva. China desenvolveu arquiteturas que rodam melhor em hardware pior. H800 é exportável para dezenas de países sem restrição (Índia, Brasil, México, Indonésia). DeepSeek pode licenciar V3 para clouds locais desses países com custo de deployment inferior a modelos americanos equivalentes, que assumem disponibilidade de H100/B200.
OpenAI e Anthropic não vão replicar. Ambos têm acesso a 100.000+ H100 e prioridade de compra em Blackwell (B200). Não há incentivo para otimizar arquitetura quando você pode jogar hardware no problema. A vantagem chinesa aqui é forçada — otimizar ou ficar para trás. Resultado: dois ecossistemas divergentes, um otimizado para performance absoluta (US), outro para eficiência (China).
Regulação de export controls sob pressão. Se DeepSeek-V3 atinge 98.5% da performance de GPT-4 com chips permitidos, qual o sentido de restringir H100? Argumento do Departamento de Comércio era "impedir paridade em frontier AI". Paridade foi atingida. Próxima rodada de controles (esperada para junho) precisa decidir: banir H800 também (prejudica Alibaba Cloud, Tencent Cloud, clientes legítimos) ou aceitar que embargo não funciona como planejado.
Brasil nisso
Nenhuma iniciativa brasileira em MoE de larga escala. C4AI (USP/IBM) trabalha com modelos densos até 7B parâmetros. Maritaca (startup) tem modelo de 70B, arquitetura densa, sem MoE. Biotic (Aiko, FAPESP) foca em biotech, não LLMs. Neuralmind (aquisição Sinch) descontinuou pesquisa própria em modelos foundation.
Implicação prática: startups brasileiras que dependem de LLM podem considerar DeepSeek-V3 self-hosted em vez de API OpenAI. Exemplo: LegalTech processando 10M tokens/mês via GPT-4 paga US$ 300/mês (output). Mesmo volume em DeepSeek-V3 self-hosted (8× A100 na AWS São Paulo, reserved instance 1 ano) sai a US$ 4.800/mês de infra + US$ 48 de tokens = US$ 4.848/mês. Não compensa — API ainda mais barata para esse volume. Breakeven só acima de 100M tokens/mês, nicho restrito (grandes e-commerces, bancos).
Oportunidade perdida em pesquisa: IDP, FGV, UFMG poderiam replicar treinamento de DeepSeek-V3 em escala menor (64B MoE, 8 experts) com cluster de 256 A100 (disponível via LNCC/SDumont). Custo estimado: US$ 180.000 em compute, 12 semanas. Produziria primeiro LLM brasileiro competitivo em português com arquitetura state-of-the-art. Ninguém está fazendo isso.
Leitura crítica
DeepSeek não divulgou composição do dataset de pré-treino. Paper menciona "14.8T tokens de fontes públicas e proprietárias, com filtragem de qualidade e desduplicação", sem detalhar proporção web crawl vs livros vs código vs dados sintéticos. Comparação direta com GPT-4 fica prejudicada — possível que dataset chinês tenha maior densidade de conteúdo técnico (arXiv traduzido, patents, papers de Tsinghua/Peking), inflando scores em benchmarks acadêmicos.
Benchmark MMLU tem viés anglófono. DeepSeek-V3 foi treinado com 23% do dataset em chinês, mas MMLU é 100% inglês. Performance de 90.2% sugere que modelo generalizou bem cross-linguistically, mas não temos MMLU-ZH (mandarim) equivalente para confirmar se performance nativa é superior. Suspeita: DeepSeek pode estar sacrificando performance em chinês para competir em benchmarks ocidentais — estratégia de marketing, não técnica.
Custo de US$ 5.5M assume preço spot Alibaba Cloud. Preço on-demand de H800 na Alibaba é US$ 2.10/hora, não US$ 0.80. Se DeepSeek pagou preço cheio (improvável, mas possível), custo real sobe para US$ 8.9M. Ainda assim 22× mais barato que GPT-4, mas margem diminui. Paper não esclarece se DeepSeek tem contrato de volume com Alibaba ou se rodou em infra própria (Hangzhou datacenter, mencionado em release anterior).
Ausência de safety benchmarks. DeepSeek-V3 não reporta scores em TruthfulQA, BBQ (bias), ToxiGen ou qualquer métrica de alignment. Modelo foi instruction-tuned, mas sem RLHF declarado. Possível que modelo tenha viés político alinhado com censura chinesa (Taiwan, Xinjiang, Hong Kong) — comum em LLMs treinados na China. OpenAI e Anthropic publicam red-teaming reports; DeepSeek não.
Licença Apache 2.0 com asterisco. Pesos são liberados, mas código de treinamento no GitHub não inclui kernels CUDA customizados para FP8 em H800 (mencionados no paper, ausentes no repo). Reprodução exata do treinamento é impossível sem esses kernels. Possível que DeepSeek esteja protegendo IP crítico enquanto finge abertura total — tática comum (Meta fez isso com Llama 2, liberou pesos mas não código de RLHF).
Comparação com GPT-4 é especulativa. OpenAI nunca confirmou arquitetura, tamanho ou custo de GPT-4. Estimativa de US$ 200M vem de SemiAnalysis (fonte confiável, mas não primária). Estimativa de 1.8T parâmetros vem de leak não-confirmado no Discord (junho 2023). DeepSeek está comparando sistema documentado (V3) com sistema especulado (GPT-4). Comparação honesta seria com Llama 3.1 405B (Meta, arquitetura e custo públicos) — mas DeepSeek não fez isso, porque Llama 3.1 é mais eficiente que GPT-4 e reduziria a vantagem aparente.
Timing do release é político. DeepSeek-V3 saiu 72 horas antes da reunião do G7 em Hiroshima (20-21/04), onde export controls de semicondutores estarão na pauta. China está sinalizando: "suas sanções não funcionam, desenvolvemos o modelo mais eficiente do mundo com seus chips castrados". Não é coincidência — é recado diplomático embalado em paper técnico.
Igor Morais Vasconcelos é advogado (OAB/DF 35.376), doutorando em IA no IDP e editor-chefe do Mirante News. Pesquisa a competição tecnológica Estados Unidos-China.
Perguntas Frequentes
- Por que DeepSeek-V3 custou 40 vezes menos que GPT-4?
- Arquitetura MoE com ativação esparsa (37B de 671B por token), treinamento em H800 (chips permitidos sob embargo, mais lentos mas disponíveis em escala), otimização agressiva de FLOPs e ausência de necessidade de retreinamento por instabilidade — decisões forçadas pela restrição de hardware.
- H800 é realmente competitivo para treinar frontier models?
- Individualmente não — H800 tem 300 TFLOPS FP16 contra 989 da H100. Mas DeepSeek montou clusters de 10.000+ H800 com interconexão otimizada e pipeline parallelism customizado, compensando throughput por volume e engenharia de sistema.
- OpenAI ou Anthropic podem replicar essa eficiência?
- Tecnicamente sim, mas não há incentivo econômico — ambos têm acesso irrestrito a H100/B200 e preferem escalar compute bruto. A vantagem chinesa aqui é produto direto da restrição: otimizar ou morrer.
- Qual o impacto disso para a estratégia de export controls dos EUA?
- Evidência crescente de que embargo força inovação arquitetural em vez de atraso. China está desenvolvendo modelos que rodam melhor em hardware inferior, potencialmente exportáveis para mercados onde custo de inferência importa mais que latência absoluta.
Receba o Mirante no seu email
As principais notícias do dia, curadas por inteligência artificial, direto na sua caixa de entrada.