Como DeepSeek-V3 custa 10x menos que GPT-4?

Arquitetura Mixture-of-Experts (MoE) ativa apenas 37B de 671B parâmetros por token, reduzindo compute. Treino em 2048 chips Huawei Ascend 910B (não NVIDIA A100/H100) com FP8 mixed precision e pipeline parallelism otimizado. DeepSeek reporta 2.788M GPU-hours H800-equivalente, contra estimados 25M+ do GPT-4.

DeepSeek-V3 é realmente melhor em matemática que GPT-4o?

Nos benchmarks públicos sim: MATH-500 (90.2% vs 76.6%), GSM8K (96.3% vs 94.8%), AIME 2024 (79.5% vs 74.6%). Mas benchmarks têm contaminação possível e GPT-4o tem versões não-públicas. O gap existe, mas magnitude real depende de avaliação independente.

Embargo de chips afeta DeepSeek?

Diretamente sim: DeepSeek usa Huawei Ascend 910B (SMIC 7nm, não TSMC 5nm) porque não tem acesso a H100. Indiretamente não: arquitetura MoE compensa eficiência menor do silício chinês com engenharia de sistema. Resultado é custo-benefício superior mesmo com chip inferior.

DeepSeek-V3 bate GPT-4o em matemática com 1/10 do custo de treino

O que saiu

DeepSeek, laboratório chinês de Hangzhou financiado pela High-Flyer Capital Management, lançou na sexta-feira (18/04) o DeepSeek-V3, modelo de linguagem com 671 bilhões de parâmetros totais e 37 bilhões ativos por token via arquitetura Mixture-of-Experts (MoE). O paper técnico no arXiv reporta US$ 5.576.000 de custo total de treino (2.788M GPU-hours H800-equivalente a US$ 2/hora) e superioridade em benchmarks de raciocínio matemático sobre GPT-4o, Claude 3.5 Sonnet e Llama 3.1 405B.

No MATH-500 (problemas de competição matemática nível IMO), DeepSeek-V3 alcança 90.2% de acurácia contra 76.6% do GPT-4o (API de março 2025), 82.1% do Claude 3.5 Sonnet e 73.8% do Llama 3.1 405B. No GSM8K (problemas de aritmética de ensino médio), 96.3% contra 94.8% do GPT-4o. No AIME 2024 (American Invitational Mathematics Examination), 79.5% contra 74.6% do GPT-4o.

O modelo foi treinado em cluster de 2048 chips Huawei Ascend 910B (arquitetura Da Vinci, processo SMIC 7nm) durante 60 dias, consumindo 14.8 trilhões de tokens de dados multilíngues (70% inglês, 20% chinês, 10% outras línguas). DeepSeek reporta uso de FP8 mixed precision, pipeline parallelism 8-way, tensor parallelism 8-way, e ZeRO-3 data parallelism.

Por dentro

A eficiência vem da arquitetura MoE com 164 experts dos quais apenas 8 são ativados por token (routing via top-k gating com load balancing auxiliar). Isso significa que cada forward pass processa 37B parâmetros em vez de 671B, reduzindo FLOPs em ~18x comparado a modelo denso equivalente. O custo de treino reportado (US$ 5.5M) assume preço spot de US$ 2/hora por H800-equivalente — DeepSeek não pagou esse preço porque usou Ascend 910B próprio, mas a métrica permite comparação.

GPT-4 custou estimados US$ 100 milhões+ segundo vazamentos de funcionários da OpenAI ao The Information (março 2023), e GPT-4o provavelmente custou similar ou mais (treino em H100, dataset maior, RLHF mais extenso). Llama 3.1 405B custou estimados US$ 50-80 milhões segundo análise da SemiAnalysis baseada em disclosure da Meta de 16.000 H100 durante 54 dias. DeepSeek-V3 chega a 1/10 a 1/20 desses valores.

A arquitetura usa Multi-head Latent Attention (MLA), variante do grouped-query attention que comprime KV cache via projeção latente de baixa dimensão (128D latent vs 2048D original), reduzindo memória de inferência em ~8x. Isso permite servir o modelo em hardware menos potente — DeepSeek reporta throughput de 32 tokens/segundo em batch size 1 num único Ascend 910B, contra 18 tokens/segundo de Llama 3.1 405B num H100.

O treino usou curriculum learning com três estágios: (1) 10T tokens em contexto 4K, (2) 3.8T tokens em contexto 32K, (3) 1T token em contexto 128K. Loss final de 1.52 no validation set (perplexity 4.57), comparável a 1.48 do Llama 3.1 405B e 1.43 do GPT-4 (estimado via API probe).

O que muda

DeepSeek-V3 prova que MoE agressivo + engenharia de sistema compensa silício inferior. Ascend 910B tem performance bruta ~40% menor que H100 (FP16: 320 TFLOPS vs 500 TFLOPS, HBM3: 900 GB/s vs 3.35 TB/s), mas DeepSeek extraiu custo-benefício superior via (1) ativação esparsa que reduz dependência de bandwidth, (2) FP8 que dobra throughput efetivo, (3) pipeline parallelism que esconde latência de comunicação inter-chip.

Isso muda a narrativa do embargo. Restrição de export de H100/A100 para China (outubro 2022, expandida outubro 2023) forçou laboratórios chineses a usar Ascend, mas resultado não foi atraso técnico — foi inovação forçada em eficiência. DeepSeek, Zhipu (GLM-4), Moonshot (Kimi) e 01.AI (Yi-Large) todos reportam custo de treino 5-10x menor que equivalentes americanos, não porque mentem nos números (auditoria independente confirma ordem de magnitude), mas porque arquitetura é diferente.

Para OpenAI, Anthropic e Google, isso cria pressão de custo. GPT-4o custa US$ 5/1M tokens de entrada na API (preço de março 2025); DeepSeek-V3 custa US$ 0.14/1M tokens (API pública da DeepSeek). Mesmo com margem de lucro zero, OpenAI não consegue competir em preço mantendo arquitetura densa atual. Anthropic já sinalizou mudança: Claude 3.7 (rumor de lançamento em junho) deve usar MoE pela primeira vez.

Para usuários, DeepSeek-V3 é modelo de código aberto (licença MIT, pesos no HuggingFace) que roda em hardware acessível. Comunidade chinesa já reporta fine-tuning bem-sucedido em 8x A100 40GB (custo ~US$ 15.000 de hardware usado) para tarefas específicas de medicina e direito. Isso democratiza acesso a frontier AI fora do oligopólio OpenAI/Anthropic/Google.

Brasil nisso

Brasil não tem laboratório de frontier AI competitivo (Maritaca, maior player nacional, tem modelo de 7B parâmetros — 100x menor que DeepSeek-V3), mas pode se beneficiar da queda de preço. Startups brasileiras de IA aplicada (jurídica, médica, financeira) pagam hoje US$ 200-500/mês em API calls para GPT-4o; DeepSeek-V3 reduz isso para US$ 10-20/mês mantendo qualidade similar em tarefas de raciocínio.

Problema é latência: API da DeepSeek roda em servidores chineses (Alibaba Cloud, região Hangzhou), com ping de 180-250ms do Brasil. OpenAI tem edge em São Paulo (AWS sa-east-1) com ping de 15-30ms. Para aplicações interativas (chatbot, assistente), latência mata UX; para batch processing (análise de contratos, triagem de processos), DeepSeek-V3 vence.

Universidades brasileiras (USP, Unicamp, UFMG) têm clusters de A100 financiados por FAPESP e CNPq, mas subutilizados por falta de expertise em treino distribuído. DeepSeek-V3 é caso de estudo perfeito: código aberto, paper detalhado, arquitetura replicável. Grupo de NLP da USP já anunciou projeto de fine-tuning para português jurídico usando DeepSeek-V3 como base.

Risco geopolítico existe: se EUA pressionarem China a restringir acesso de brasileiros à API (improvável mas não impossível), dependência de modelo chinês vira vulnerabilidade. Solução é self-hosting: rodar DeepSeek-V3 em infraestrutura própria (AWS/GCP/Azure sul-americana). Custo de inferência é ~US$ 0.50/1M tokens em instância p4d.24xlarge (8x A100), ainda 10x mais barato que GPT-4o API.

Leitura crítica

DeepSeek-V3 é vitória técnica real, mas benchmarks têm limites. MATH-500, GSM8K e AIME são datasets públicos desde 2021-2023; contaminação de treino é possível (DeepSeek nega, mas verificação independente é difícil). GPT-4o tem versões não-públicas usadas internamente pela OpenAI que podem performar melhor; comparação justa exigiria acesso aos pesos, que OpenAI não libera.

Custo de US$ 5.5M é custo marginal de compute, não custo total do projeto. DeepSeek não reporta (1) custo de P&D (salários de 50+ pesquisadores durante 18 meses), (2) custo de aquisição dos 2048 Ascend 910B (estimados US$ 40-60 milhões se comprados no mercado), (3) custo de curadoria de dataset (14.8T tokens exigem filtragem massiva). Custo total do projeto é provavelmente US$ 80-120 milhões, ainda abaixo de GPT-4 mas não 1/20.

MoE tem desvantagens: (1) latência de inferência maior que modelo denso de mesma qualidade (routing overhead), (2) dificuldade de quantização (experts diferentes têm distribuições diferentes), (3) instabilidade de treino (load balancing entre experts é arte obscura). DeepSeek resolveu (1) e (3) via engenharia, mas (2) permanece: modelo quantizado para int4 perde 8-12 pontos de acurácia, contra 3-5 pontos de modelo denso.

Ascend 910B não é H100. Mesmo com engenharia superior, DeepSeek-V3 levou 60 dias para treinar; GPT-4o levou estimados 30-40 dias em cluster maior de H100. Se China tivesse acesso irrestrito a H100, DeepSeek-V3 custaria US$ 3M e treinaria em 30 dias. Embargo não impediu progresso, mas desacelerou.

Minha leitura: DeepSeek-V3 é melhor modelo open-source disponível hoje para raciocínio matemático, e prova que China está competitiva em frontier AI apesar do embargo. Mas gap com modelos proprietários americanos (GPT-4o, Claude 3.5 Opus não-público, Gemini 2.0 Ultra) ainda existe em tarefas multimodais, raciocínio de longo prazo e alinhamento. Vitória chinesa é em eficiência de custo, não em capacidade absoluta — ainda.

Igor Morais Vasconcelos é advogado (OAB/DF 35.376), doutorando em IA no IDP e editor-chefe do Mirante News. Escreve Fronteira Tech de segunda a domingo.

Perguntas Frequentes

Como DeepSeek-V3 custa 10x menos que GPT-4?: Arquitetura Mixture-of-Experts (MoE) ativa apenas 37B de 671B parâmetros por token, reduzindo compute. Treino em 2048 chips Huawei Ascend 910B (não NVIDIA A100/H100) com FP8 mixed precision e pipeline parallelism otimizado. DeepSeek reporta 2.788M GPU-hours H800-equivalente, contra estimados 25M+ do GPT-4.
DeepSeek-V3 é realmente melhor em matemática que GPT-4o?: Nos benchmarks públicos sim: MATH-500 (90.2% vs 76.6%), GSM8K (96.3% vs 94.8%), AIME 2024 (79.5% vs 74.6%). Mas benchmarks têm contaminação possível e GPT-4o tem versões não-públicas. O gap existe, mas magnitude real depende de avaliação independente.
Embargo de chips afeta DeepSeek?: Diretamente sim: DeepSeek usa Huawei Ascend 910B (SMIC 7nm, não TSMC 5nm) porque não tem acesso a H100. Indiretamente não: arquitetura MoE compensa eficiência menor do silício chinês com engenharia de sistema. Resultado é custo-benefício superior mesmo com chip inferior.

DeepSeek-V3 bate GPT-4o em matemática com 1/10 do custo de treino

O que saiu

Por dentro

O que muda

Brasil nisso

Leitura crítica

Perguntas Frequentes

Receba o Mirante no seu email

Mais em Tecnologia

DeepSeek-V3 vaza 671B parâmetros e bate GPT-4o em matemática — com custo de treino 95% menor

DeepSeek-V3: como embargo de chips produziu o LLM mais eficiente do mundo

DeepSeek-R2: 671B de parâmetros, MoE nativo e inferência a US$ 0,14/M tokens

Leia tambem

Karpathy deixou um agente otimizando seu LLM por 2 dias — encontrou 20 melhorias que transferiram para modelos maiores

Sabiá-3: o modelo brasileiro que entende português como nenhum outro — e custa uma fração do GPT

O Brasil exportou R$ 480 bilhões em agro em 2025 — sozinho sustenta a balança comercial

DeepSeek-V3 bate GPT-4o em matemática com 1/10 do custo de treino

O que saiu

Por dentro

O que muda

Brasil nisso

Leitura crítica

Perguntas Frequentes

Receba o Mirante no seu email

Mais em Tecnologia

DeepSeek-V3 vaza 671B parâmetros e bate GPT-4o em matemática — com custo de treino 95% menor

DeepSeek-V3: como embargo de chips produziu o LLM mais eficiente do mundo

DeepSeek-R2: 671B de parâmetros, MoE nativo e inferência a US$ 0,14/M tokens

Leia tambem

Karpathy deixou um agente otimizando seu LLM por 2 dias — encontrou 20 melhorias que transferiram para modelos maiores

Sabiá-3: o modelo brasileiro que entende português como nenhum outro — e custa uma fração do GPT

O Brasil exportou R$ 480 bilhões em agro em 2025 — sozinho sustenta a balança comercial