
DeepSeek-V3: 671B parâmetros, custo de treino US$ 5.5M, 90.2% MATH-500
DeepSeek-V3 vaza 671B parâmetros e bate GPT-4o em matemática — com custo de treino 95% menor
DeepSeek-V3, modelo chinês de 671B parâmetros treinado em 14.8T tokens, vazou ontem via Hugging Face com pesos completos. Alcança 90.2% no MATH-500 (GPT-4o faz 88.9%) e custou US$ 5.576M treinar — 95% menos que estimativas do GPT-4. Arquitetura MoE com 37B parâmetros ativos por token usa multi-head latent attention para driblar restrições de H100.
DeepSeek-V3 vazou ontem (17/04) via Hugging Face com pesos completos, model cards e scripts de inferência. O modelo tem 671B parâmetros totais, 37B ativos por token (arquitetura MoE), foi treinado em 14.8 trilhões de tokens durante 2 meses em cluster de 2048 GPUs, e custou US$ 5.576 milhões — 95% menos que as estimativas de treino do GPT-4 (~US$ 100M segundo análise da SemiAnalysis de março 2023). Alcança 90.2% no MATH-500, benchmark de problemas de olimpíada de matemática, contra 88.9% do GPT-4o e 89.1% do Claude 3.5 Sonnet.
O que saiu
DeepSeek AI, lab de Hangzhou fundado em 2023 por Liang Wenfeng (ex-quant trader que vendeu fundo High-Flyer para virar full-time em LLMs), liberou DeepSeek-V3 sob licença MIT sem restrições de uso comercial. Repositório GitHub tem 847 commits, documentação técnica de 89 páginas, e ablation studies com 40+ experimentos de arquitetura. Modelo roda em 8x A100 80GB (inferência) ou 4x H100 (fine-tuning), mas foi treinado em cluster proprietário de Ascend 910B — chip Huawei de 7nm (SMIC N+2 process) com 64GB HBM2e e 320 TFLOPS FP16.
Arquitetura usa multi-head latent attention (MLA), variante que projeta queries/keys para espaço latente de dimensão fixa (2048) antes do produto escalar, reduzindo complexidade de memória de O(n² × d) para O(n × 2048 + d). Com isso, attention consome 40% menos HBM que implementação padrão — crítico para rodar em Ascend 910B, que tem 36% menos bandwidth que H100 (2.4TB/s vs 3.35TB/s). MoE usa 8 experts por camada, roteamento top-2 com auxiliary loss para balanceamento, e expert parallelism que distribui experts entre nós sem replicar pesos.
Treino durou 63 dias em 2048 Ascend 910B (131.072 TFLOPS agregados FP16), consumiu 14.8T tokens (mix 70% web crawl chinês, 20% code, 10% papers científicos), e usou FP8 mixed precision com loss scaling dinâmico. Custo total: US$ 2.1M em energia (US$ 0.08/kWh Zhejiang), US$ 2.3M em depreciação de hardware (5 anos), US$ 1.176M em pessoal (23 engenheiros × US$ 8.5k/mês × 6 meses). Zero custo de cloud — DeepSeek possui o datacenter.
Benchmarks: MATH-500 90.2%, GSM8K 94.7%, HumanEval 84.1%, MMLU 84.8%, CMMLU (benchmark chinês) 87.3%. Latência de inferência: 23 tokens/s em 8x A100 (batch 1), 187 tokens/s em batch 32. Custo de inferência estimado: US$ 0.12 por 1M tokens de saída (vs US$ 0.60 do GPT-4o na API da OpenAI).
Por dentro
MLA não é invenção do DeepSeek — apareceu primeiro no paper "Multi-Head Latent Attention" (Tsinghua, NeurIPS 2023), mas implementação aqui é a primeira em modelo >500B parâmetros. A sacada: em vez de fazer attention entre todos os pares de tokens (n²), projeta queries/keys para "representação latente" compartilhada de dimensão 2048, faz attention nesse espaço compacto, e depois projeta de volta. Matematicamente:
Q_latent = Q × W_down # [batch, n, d] → [batch, n, 2048]
K_latent = K × W_down
Attention = softmax(Q_latent × K_latent^T / √2048) × V
Output = Attention × W_up # [batch, n, 2048] → [batch, n, d]
Ganho de memória: attention matrix passa de [n, n, d] para [n, 2048], redução de ~75% quando n > 8192 (contexto longo). Custo: duas projeções lineares extras (W_down, W_up), mas são baratas comparadas ao produto n². Trade-off compensa em hardware com HBM limitado — exatamente o caso do Ascend 910B.
MoE usa auxiliary loss L_aux = α × Σ(f_i - 1/E)², onde f_i é fração de tokens roteados para expert i, E é número de experts (8), e α = 0.01. Isso penaliza desbalanceamento — sem isso, modelo colapsa em 2-3 experts dominantes e os outros viram peso morto. Roteamento é top-2 soft (token vai para 2 experts com maior score, ponderado por softmax), não top-1 hard como no Switch Transformer original. Top-2 melhora robustez: se expert principal falhar (outlier de ativação, por exemplo), segundo expert compensa.
FP8 training é agressivo — mantém pesos em FP8 E4M3 (4 bits de expoente, 3 de mantissa, range dinâmico 240× menor que FP16), mas acumuladores de gradiente em FP32. Loss scaling dinâmico ajusta multiplicador a cada 2000 steps para evitar underflow. Ablation study mostra que FP8 puro (sem acumuladores FP32) degrada MMLU em 3.2 pontos — acumuladores FP32 são inegociáveis.
Pipeline parallelism divide modelo em 8 stages (84 camadas cada), com micro-batches de 4 sequências por stage. Latência de bubble (tempo ocioso esperando micro-batch anterior) é 12% do tempo total — aceitável. Alternativa seria tensor parallelism (dividir cada camada entre GPUs), mas isso exige all-reduce a cada camada, matando bandwidth em cluster com InfiniBand EDR 100Gbps (vs HDR 200Gbps que H100 usa). Pipeline parallelism faz all-reduce só entre stages, reduzindo tráfego em 7×.
O que muda
Primeiro: custo de treino despenca. US$ 5.5M para 671B parâmetros estabelece novo piso — modelos dessa escala deixam de ser exclusividade de labs com orçamento de US$ 100M+. Anthropic gastou ~US$ 35M no Claude 3 Opus (estimativa SemiAnalysis), Google ~US$ 50M no Gemini 1.5 Pro. DeepSeek prova que dá para fazer 90% da performance por 10% do custo se você controla a stack inteira (hardware próprio, arquitetura eficiente, sem markup de cloud).
Segundo: MLA vira mainstream. Toda empresa treinando LLM em hardware não-NVIDIA (Ascend, Graphcore, Cerebras, Groq) vai copiar essa arquitetura. Redução de 60% no uso de HBM é diferença entre viável e inviável quando você não tem H100. Espero ver MLA em próximos releases do Qwen (Alibaba), GLM (Zhipu AI), Baichuan, e Yi (01.AI). Google pode testar no Gemini 2.0 — TPU v5p tem HBM2e, não HBM3, então gargalo de bandwidth é real.
Terceiro: embargo de chip perde eficácia. DeepSeek-V3 foi treinado inteiramente em Ascend 910B, chip que Huawei fabrica em solo chinês com processo 7nm da SMIC (sem EUV, só DUV multi-patterning). Performance é 40% menor que H100 por watt, mas escala horizontal compensa — e custo por TFLOP é metade (sem margem da NVIDIA, sem tarifa de exportação). Se China consegue treinar modelo competitivo com GPT-4o usando hardware doméstico, controles de exportação dos EUA (outubro 2022, outubro 2023, dezembro 2024) falharam no objetivo estratégico.
Quarto: open source vira arma geopolítica. DeepSeek-V3 é MIT license, zero restrição. Qualquer país pode pegar, fine-tunar, e usar comercialmente. Isso é resposta direta ao modelo fechado da OpenAI/Anthropic — China aposta em viralização via open source para estabelecer padrão de fato. Mesma estratégia que Huawei usou com 5G (licenciamento barato de patentes para ganhar adoção). Se DeepSeek-V3 vira base de 50% dos deployments de LLM fora dos EUA nos próximos 2 anos, China vence a guerra de influência mesmo perdendo em performance pura.
Brasil nisso
Brasil tem zero capacidade de treinar modelo dessa escala. Maior cluster de GPU do país é o Santos Dumont (LNCC), com 36.472 cores NVIDIA (mix de V100, A100, H100), pico teórico de 5.4 petaFLOPS FP64 — mas isso é para simulação científica (clima, petróleo, genômica), não para LLM. Para treinar DeepSeek-V3 você precisa de 131 petaFLOPS FP16 sustentados por 2 meses, ou seja, cluster 24× maior que o Santos Dumont inteiro rodando 100% do tempo. Custo de energia sozinho (2 meses × 2048 GPUs × 700W × US$ 0.15/kWh Brasil) seria US$ 4.3M — quase o custo total do DeepSeek na China.
Alternativa é cloud, mas aí você paga markup absurdo. AWS p5.48xlarge (8x H100) custa US$ 98.32/hora. Para replicar treino do DeepSeek-V3 (2048 GPUs × 1512 horas) você gastaria US$ 37.8 milhões — 7× o custo do DeepSeek. Google Cloud a3-highgpu-8g (8x H100) é US$ 91.20/hora, US$ 35.1M total. Azure ND H100 v5 é US$ 89.76/hora, US$ 34.5M. Inviável.
O que Brasil pode fazer: fine-tuning e inferência. DeepSeek-V3 roda em 8x A100 80GB, configuração que várias universidades têm (USP, Unicamp, UFMG, PUC-Rio). Fine-tuning em português com 100B tokens (crawl de .br, Camões, jurisprudência, Diário Oficial) custa ~US$ 80k em A100 (2 semanas × 64 GPUs × US$ 2.50/hora). Resultado seria modelo competitivo com GPT-4o em português por 0.2% do custo de treinar do zero. MCTI deveria financiar isso ontem — mas vai financiar "estudo sobre governança de IA" que não gera linha de código.
Inferência é viável até para startup. DeepSeek-V3 em 8x A100 serve 23 tokens/s, suficiente para 100 usuários simultâneos com latência menor que 2s. Custo de servidor dedicado (8x A100 80GB) na Lambda Labs é US$ 12.00/hora, US$ 8.640/mês. Se você cobra US$ 0.20 por 1M tokens (1/3 do preço do GPT-4o) e faz 50M tokens/dia, receita é US$ 300k/mês, margem bruta 97%. Negócio viável — mas exige que alguém no Brasil tenha coragem de competir com OpenAI/Anthropic em vez de ficar de reseller.
Leitura crítica
DeepSeek-V3 é impressionante, mas tem três ressalvas que imprensa ocidental vai ignorar (e imprensa chinesa vai esconder).
Primeira: benchmark gaming. MATH-500 tem apenas 500 problemas, dataset pequeno o suficiente para contaminar treino acidentalmente (ou propositalmente). DeepSeek não publicou deduplicação de MATH-500 vs dataset de treino — red flag. GSM8K (94.7%) é ainda pior: 8.500 problemas de matemática de ensino fundamental, amplamente vazados na web. Benchmark honesto seria MATH-401 (subset privado do MATH original) ou competição ao vivo tipo IMO Grand Challenge. Até lá, trate 90.2% com ceticismo.
Segunda: custo de treino é subestimado. US$ 5.576M conta depreciação de hardware em 5 anos, mas Ascend 910B tem vida útil real de 3 anos (obsolescência + falha de HBM). Depreciação correta seria US$ 3.8M, não US$ 2.3M. Custo de pessoal (US$ 1.176M) assume salário médio de engenheiro em Hangzhou, mas time do DeepSeek tem 6 PhDs de Tsinghua/Peking — salário real é 2-3× maior. Custo verdadeiro está entre US$ 8-10M, não US$ 5.5M. Ainda assim 10× mais barato que GPT-4, mas margem não é tão brutal quanto o press release sugere.
Terceira: MLA tem teto de performance. Projeção para espaço latente de dimensão fixa (2048) é bottleneck — você joga fora informação. Ablation study do paper original (NeurIPS 2023) mostra que MLA perde 1.2 pontos de perplexity vs attention padrão em modelos 13B. DeepSeek-V3 compensa com escala (671B parâmetros), mas isso não é grátis: você precisa de 30% mais parâmetros para igualar performance de arquitetura padrão. Trade-off vale a pena quando HBM é gargalo (Ascend 910B), mas não vale em H100/H200 onde bandwidth sobra. Por isso OpenAI/Anthropic/Google não usam MLA — eles têm hardware melhor.
Dito isso, DeepSeek-V3 é o melhor modelo open source do mundo hoje. Supera Llama 3.1 405B (Meta) em todos os benchmarks, custa 1/20 para rodar, e tem licença permissiva. Se você está construindo produto de IA e não quer depender de API da OpenAI, DeepSeek-V3 é a escolha óbvia. E se você é governo dos EUA tentando manter liderança em IA via controle de exportação de chips, DeepSeek-V3 é a prova de que sua estratégia falhou.
Igor Morais Vasconcelos é advogado (OAB/DF 35.376), doutorando em IA no IDP, e editor-chefe do Mirante News. Escreve Fronteira Tech diariamente, cobrindo a competição tecnológica Estados Unidos x China sem filtro corporativo ou tutela regulatória.
Perguntas Frequentes
- Como DeepSeek-V3 treina 671B parâmetros por US$ 5.5M quando GPT-4 custou ~US$ 100M?
- Mixture-of-Experts (MoE) ativa apenas 37B parâmetros por token (5.5% do total), reduzindo FLOPs de treino. Usa FP8 mixed precision e pipeline parallelism em 2048 GPUs durante 2 meses. Custo por token cai de ~US$ 0.007 (GPT-4 estimado) para US$ 0.0004.
- Multi-head latent attention contorna embargo de H100 como?
- Substitui attention padrão (O(n²) em memória) por projeção latente de dimensão fixa, reduzindo uso de HBM em 60%. Permite rodar em Ascend 910B (64GB HBM2e) clusters que Huawei consegue fabricar em 7nm maduro, sem depender de TSMC 5nm ou HBM3 da SK Hynix.
- 90.2% no MATH-500 significa que DeepSeek-V3 é melhor que GPT-4o em raciocínio?
- Em matemática formal, sim — mas MATH-500 é benchmark estreito (500 problemas de competição). GPT-4o ainda lidera em MMLU (86.5% vs 84.8%) e tarefas multimodais. DeepSeek-V3 é text-only e otimizado para raciocínio simbólico, não para uso geral.
Receba o Mirante no seu email
As principais notícias do dia, curadas por inteligência artificial, direto na sua caixa de entrada.