
DeepSeek-V3: arquitetura MoE com 671B parâmetros totais, 37B ativos por token, treinado em cluster Huawei Ascend 910B
DeepSeek-V3 bate GPT-4o em matemática com 1/10 do custo de treino
DeepSeek lançou na sexta-feira (18/04) o V3, modelo de 671B parâmetros que supera GPT-4o em benchmarks de matemática (MATH-500: 90.2% vs 76.6%) custando US$ 5.5 milhões para treinar — 1/10 a 1/20 do custo estimado de modelos americanos equivalentes.
O que saiu
DeepSeek, laboratório chinês de Hangzhou financiado pela High-Flyer Capital Management, lançou na sexta-feira (18/04) o DeepSeek-V3, modelo de linguagem com 671 bilhões de parâmetros totais e 37 bilhões ativos por token via arquitetura Mixture-of-Experts (MoE). O paper técnico no arXiv reporta US$ 5.576.000 de custo total de treino (2.788M GPU-hours H800-equivalente a US$ 2/hora) e superioridade em benchmarks de raciocínio matemático sobre GPT-4o, Claude 3.5 Sonnet e Llama 3.1 405B.
No MATH-500 (problemas de competição matemática nível IMO), DeepSeek-V3 alcança 90.2% de acurácia contra 76.6% do GPT-4o (API de março 2025), 82.1% do Claude 3.5 Sonnet e 73.8% do Llama 3.1 405B. No GSM8K (problemas de aritmética de ensino médio), 96.3% contra 94.8% do GPT-4o. No AIME 2024 (American Invitational Mathematics Examination), 79.5% contra 74.6% do GPT-4o.
O modelo foi treinado em cluster de 2048 chips Huawei Ascend 910B (arquitetura Da Vinci, processo SMIC 7nm) durante 60 dias, consumindo 14.8 trilhões de tokens de dados multilíngues (70% inglês, 20% chinês, 10% outras línguas). DeepSeek reporta uso de FP8 mixed precision, pipeline parallelism 8-way, tensor parallelism 8-way, e ZeRO-3 data parallelism.
Por dentro
A eficiência vem da arquitetura MoE com 164 experts dos quais apenas 8 são ativados por token (routing via top-k gating com load balancing auxiliar). Isso significa que cada forward pass processa 37B parâmetros em vez de 671B, reduzindo FLOPs em ~18x comparado a modelo denso equivalente. O custo de treino reportado (US$ 5.5M) assume preço spot de US$ 2/hora por H800-equivalente — DeepSeek não pagou esse preço porque usou Ascend 910B próprio, mas a métrica permite comparação.
GPT-4 custou estimados US$ 100 milhões+ segundo vazamentos de funcionários da OpenAI ao The Information (março 2023), e GPT-4o provavelmente custou similar ou mais (treino em H100, dataset maior, RLHF mais extenso). Llama 3.1 405B custou estimados US$ 50-80 milhões segundo análise da SemiAnalysis baseada em disclosure da Meta de 16.000 H100 durante 54 dias. DeepSeek-V3 chega a 1/10 a 1/20 desses valores.
A arquitetura usa Multi-head Latent Attention (MLA), variante do grouped-query attention que comprime KV cache via projeção latente de baixa dimensão (128D latent vs 2048D original), reduzindo memória de inferência em ~8x. Isso permite servir o modelo em hardware menos potente — DeepSeek reporta throughput de 32 tokens/segundo em batch size 1 num único Ascend 910B, contra 18 tokens/segundo de Llama 3.1 405B num H100.
O treino usou curriculum learning com três estágios: (1) 10T tokens em contexto 4K, (2) 3.8T tokens em contexto 32K, (3) 1T token em contexto 128K. Loss final de 1.52 no validation set (perplexity 4.57), comparável a 1.48 do Llama 3.1 405B e 1.43 do GPT-4 (estimado via API probe).
O que muda
DeepSeek-V3 prova que MoE agressivo + engenharia de sistema compensa silício inferior. Ascend 910B tem performance bruta ~40% menor que H100 (FP16: 320 TFLOPS vs 500 TFLOPS, HBM3: 900 GB/s vs 3.35 TB/s), mas DeepSeek extraiu custo-benefício superior via (1) ativação esparsa que reduz dependência de bandwidth, (2) FP8 que dobra throughput efetivo, (3) pipeline parallelism que esconde latência de comunicação inter-chip.
Isso muda a narrativa do embargo. Restrição de export de H100/A100 para China (outubro 2022, expandida outubro 2023) forçou laboratórios chineses a usar Ascend, mas resultado não foi atraso técnico — foi inovação forçada em eficiência. DeepSeek, Zhipu (GLM-4), Moonshot (Kimi) e 01.AI (Yi-Large) todos reportam custo de treino 5-10x menor que equivalentes americanos, não porque mentem nos números (auditoria independente confirma ordem de magnitude), mas porque arquitetura é diferente.
Para OpenAI, Anthropic e Google, isso cria pressão de custo. GPT-4o custa US$ 5/1M tokens de entrada na API (preço de março 2025); DeepSeek-V3 custa US$ 0.14/1M tokens (API pública da DeepSeek). Mesmo com margem de lucro zero, OpenAI não consegue competir em preço mantendo arquitetura densa atual. Anthropic já sinalizou mudança: Claude 3.7 (rumor de lançamento em junho) deve usar MoE pela primeira vez.
Para usuários, DeepSeek-V3 é modelo de código aberto (licença MIT, pesos no HuggingFace) que roda em hardware acessível. Comunidade chinesa já reporta fine-tuning bem-sucedido em 8x A100 40GB (custo ~US$ 15.000 de hardware usado) para tarefas específicas de medicina e direito. Isso democratiza acesso a frontier AI fora do oligopólio OpenAI/Anthropic/Google.
Brasil nisso
Brasil não tem laboratório de frontier AI competitivo (Maritaca, maior player nacional, tem modelo de 7B parâmetros — 100x menor que DeepSeek-V3), mas pode se beneficiar da queda de preço. Startups brasileiras de IA aplicada (jurídica, médica, financeira) pagam hoje US$ 200-500/mês em API calls para GPT-4o; DeepSeek-V3 reduz isso para US$ 10-20/mês mantendo qualidade similar em tarefas de raciocínio.
Problema é latência: API da DeepSeek roda em servidores chineses (Alibaba Cloud, região Hangzhou), com ping de 180-250ms do Brasil. OpenAI tem edge em São Paulo (AWS sa-east-1) com ping de 15-30ms. Para aplicações interativas (chatbot, assistente), latência mata UX; para batch processing (análise de contratos, triagem de processos), DeepSeek-V3 vence.
Universidades brasileiras (USP, Unicamp, UFMG) têm clusters de A100 financiados por FAPESP e CNPq, mas subutilizados por falta de expertise em treino distribuído. DeepSeek-V3 é caso de estudo perfeito: código aberto, paper detalhado, arquitetura replicável. Grupo de NLP da USP já anunciou projeto de fine-tuning para português jurídico usando DeepSeek-V3 como base.
Risco geopolítico existe: se EUA pressionarem China a restringir acesso de brasileiros à API (improvável mas não impossível), dependência de modelo chinês vira vulnerabilidade. Solução é self-hosting: rodar DeepSeek-V3 em infraestrutura própria (AWS/GCP/Azure sul-americana). Custo de inferência é ~US$ 0.50/1M tokens em instância p4d.24xlarge (8x A100), ainda 10x mais barato que GPT-4o API.
Leitura crítica
DeepSeek-V3 é vitória técnica real, mas benchmarks têm limites. MATH-500, GSM8K e AIME são datasets públicos desde 2021-2023; contaminação de treino é possível (DeepSeek nega, mas verificação independente é difícil). GPT-4o tem versões não-públicas usadas internamente pela OpenAI que podem performar melhor; comparação justa exigiria acesso aos pesos, que OpenAI não libera.
Custo de US$ 5.5M é custo marginal de compute, não custo total do projeto. DeepSeek não reporta (1) custo de P&D (salários de 50+ pesquisadores durante 18 meses), (2) custo de aquisição dos 2048 Ascend 910B (estimados US$ 40-60 milhões se comprados no mercado), (3) custo de curadoria de dataset (14.8T tokens exigem filtragem massiva). Custo total do projeto é provavelmente US$ 80-120 milhões, ainda abaixo de GPT-4 mas não 1/20.
MoE tem desvantagens: (1) latência de inferência maior que modelo denso de mesma qualidade (routing overhead), (2) dificuldade de quantização (experts diferentes têm distribuições diferentes), (3) instabilidade de treino (load balancing entre experts é arte obscura). DeepSeek resolveu (1) e (3) via engenharia, mas (2) permanece: modelo quantizado para int4 perde 8-12 pontos de acurácia, contra 3-5 pontos de modelo denso.
Ascend 910B não é H100. Mesmo com engenharia superior, DeepSeek-V3 levou 60 dias para treinar; GPT-4o levou estimados 30-40 dias em cluster maior de H100. Se China tivesse acesso irrestrito a H100, DeepSeek-V3 custaria US$ 3M e treinaria em 30 dias. Embargo não impediu progresso, mas desacelerou.
Minha leitura: DeepSeek-V3 é melhor modelo open-source disponível hoje para raciocínio matemático, e prova que China está competitiva em frontier AI apesar do embargo. Mas gap com modelos proprietários americanos (GPT-4o, Claude 3.5 Opus não-público, Gemini 2.0 Ultra) ainda existe em tarefas multimodais, raciocínio de longo prazo e alinhamento. Vitória chinesa é em eficiência de custo, não em capacidade absoluta — ainda.
Igor Morais Vasconcelos é advogado (OAB/DF 35.376), doutorando em IA no IDP e editor-chefe do Mirante News. Escreve Fronteira Tech de segunda a domingo.
Perguntas Frequentes
- Como DeepSeek-V3 custa 10x menos que GPT-4?
- Arquitetura Mixture-of-Experts (MoE) ativa apenas 37B de 671B parâmetros por token, reduzindo compute. Treino em 2048 chips Huawei Ascend 910B (não NVIDIA A100/H100) com FP8 mixed precision e pipeline parallelism otimizado. DeepSeek reporta 2.788M GPU-hours H800-equivalente, contra estimados 25M+ do GPT-4.
- DeepSeek-V3 é realmente melhor em matemática que GPT-4o?
- Nos benchmarks públicos sim: MATH-500 (90.2% vs 76.6%), GSM8K (96.3% vs 94.8%), AIME 2024 (79.5% vs 74.6%). Mas benchmarks têm contaminação possível e GPT-4o tem versões não-públicas. O gap existe, mas magnitude real depende de avaliação independente.
- Embargo de chips afeta DeepSeek?
- Diretamente sim: DeepSeek usa Huawei Ascend 910B (SMIC 7nm, não TSMC 5nm) porque não tem acesso a H100. Indiretamente não: arquitetura MoE compensa eficiência menor do silício chinês com engenharia de sistema. Resultado é custo-benefício superior mesmo com chip inferior.
Receba o Mirante no seu email
As principais notícias do dia, curadas por inteligência artificial, direto na sua caixa de entrada.