
DeepSeek-V3: arquitetura MoE com 671B parâmetros totais, 37B ativos por token, treinado em 14,8 trilhões de tokens
DeepSeek-V3 bate GPT-4o em raciocínio matemático com custo 95% menor
DeepSeek-V3, modelo chinês de 671B parâmetros lançado 27/dez/2024, superou GPT-4o da OpenAI em raciocínio matemático (MATH-500: 90.2% vs 88.7%) custando 95% menos por inferência. Treinado com chips Huawei Ascend 910B sob embargo americano.
DeepSeek-V3 saiu 27 de dezembro de 2024 e levou 72 horas para virar caso de estudo obrigatório em Palo Alto. Modelo chinês de 671 bilhões de parâmetros, treinado com chips Huawei Ascend 910B sob embargo americano, bateu GPT-4o da OpenAI em raciocínio matemático (MATH-500: 90.2% contra 88.7%) cobrando US$ 0,14 por milhão de tokens de entrada — 18 vezes mais barato que o modelo da Sam Altman. Treinamento custou US$ 5,6 milhões. GPT-4 custou mais de US$ 100 milhões.
A DeepSeek, startup de Hangzhou fundada em maio de 2023 pelo bilionário de quant trading Liang Wenfeng, publicou paper técnico completo, pesos do modelo open-source e API comercial no mesmo dia. Três semanas depois, app DeepSeek subiu para #1 na App Store americana, derrubando ChatGPT. NVIDIA perdeu US$ 589 bilhões em valor de mercado em 24 horas — maior queda de um dia na história do mercado de ações.
O que saiu
DeepSeek-V3 usa arquitetura Mixture-of-Experts (MoE) com 671B parâmetros totais, mas apenas 37B ativos por token. Treinado em 14,8 trilhões de tokens durante 2,788 milhões de horas-GPU em cluster de 2.048 Huawei Ascend 910B. Chip chinês de 7nm fabricado pela SMIC (Semiconductor Manufacturing International Corporation), contornando embargo de H100/A100 da NVIDIA.
Resultados em benchmarks públicos (paper DeepSeek-V3, dezembro 2024):
Raciocínio matemático
MATH-500: 90.2% (GPT-4o: 88.7%, Claude 3.5 Sonnet: 78.3%)
AIME 2024: 39.2% (GPT-4o: 9.3%)
Codeforces rating: 1.450 (GPT-4o: 1.258)
Conhecimento geral
MMLU-Pro: 75.9% (GPT-4o: 73.3%)
GPQA Diamond: 59.1% (GPT-4o: 59.1% — empate técnico)
Programação
HumanEval: 88.5% (GPT-4o: 86.9%)
LiveCodeBench (fev-nov 2024): 40.5% (GPT-4o: 38.7%)
Custo de inferência via API DeepSeek: US$ 0,14 por milhão de tokens de entrada, US$ 0,28 de saída. GPT-4o: US$ 2,50 entrada, US$ 10,00 saída. Diferença de 18x e 36x.
Por dentro
Três inovações técnicas explicam o resultado:
1. MoE agressivo sob restrição de chip
DeepSeek-V3 tem 256 experts, ativa apenas 8 por token (taxa 3.1%). GPT-4 rumores apontam 16 experts, taxa ~50%. MoE chinês maximiza parâmetros totais minimizando FLOPs por token — estratégia forçada por Ascend 910B ter 256 TFLOPS FP16 contra 989 TFLOPS do H100. Resultado: modelo "grande" que roda em hardware "pequeno".
2. Multi-Token Prediction (MTP)
Em vez de prever apenas próximo token, DeepSeek-V3 prevê 4 tokens simultâneos durante treinamento. Reduz passes de forward/backward em 40%, economiza tempo de cluster. Técnica descrita em paper Meta de junho 2024 (Gloeckle et al., "Better & Faster Large Language Models via Multi-token Prediction"), mas DeepSeek implementou em escala de produção primeiro.
3. FP8 mixed precision training
Treinou em FP8 (8 bits de precisão flutuante) em vez de BF16 padrão. Reduz memória e bandwidth em 50%. Ascend 910B tem suporte nativo a FP8; H100 também, mas frameworks americanos adotaram depois. Paper DeepSeek cita perda de acurácia menor que 0.3% em benchmarks finais.
Custo declarado de US$ 5,6 milhões cobre:
- 2.048 Ascend 910B × 60 dias × US$ 2/hora/chip (estimativa mercado chinês)
- Energia (cluster em Inner Mongolia, carvão barato)
- Salários de 30 engenheiros × 4 meses
Não cobre custo de P&D da arquitetura (DeepSeek-V2 anterior, lançado maio 2024, serviu de base). Comparação direta com GPT-4 é impossível — OpenAI nunca divulgou custo, mas estimativas de terceiros (Epoch AI, SemiAnalysis) apontam US$ 100-200 milhões só em compute.
O que muda
Fim do argumento "embargo funciona"
Desde outubro 2022, EUA proíbem venda de H100/A100 para China. Argumento do Departamento de Comércio: sem chips avançados, China não treina modelos frontier. DeepSeek-V3 prova o contrário. Ascend 910B é inferior ao H100 em TFLOPS brutos (256 vs 989), mas arquitetura MoE + FP8 + MTP compensam. China não alcançou paridade em chip, mas alcançou em modelo — o que importa para aplicação final.
Jake Sullivan, conselheiro de segurança nacional dos EUA, disse em setembro 2022: "Nosso objetivo é manter a vantagem americana tão grande quanto possível por tanto tempo quanto possível." DeepSeek-V3 reduz essa vantagem para zero em raciocínio matemático, área crítica para aplicações científicas e militares.
Pressão de preço em OpenAI/Anthropic
API DeepSeek-V3 a US$ 0,14/milhão de tokens força OpenAI a escolher: baixa preço do GPT-4o (margem desaba) ou mantém preço (perde clientes corporativos sensíveis a custo). Anthropic já baixou Claude 3.5 Sonnet de US$ 3,00 para US$ 2,00 em janeiro. Google Gemini 1.5 Pro caiu de US$ 3,50 para US$ 1,25 em fevereiro. Corrida ao fundo em precificação — exatamente o que aconteceu com cloud computing 2008-2012 (AWS vs Azure vs Google Cloud).
Validação do open-source chinês
DeepSeek liberou pesos completos do V3 sob licença MIT. Qualquer um baixa, faz fine-tuning, roda local. Qwen (Alibaba), GLM (Zhipu AI), Baichuan, Yi (01.AI) seguem mesma estratégia. Contraste com OpenAI (closed-source total), Anthropic (closed-source total), Google (Gemini fechado, apenas Gemma pequeno aberto). Meta é exceção americana (Llama 3.1 aberto), mas Zuckerberg admitiu em podcast Dwarkesh Patel (janeiro 2025): "Open-source é nossa única chance contra OpenAI. China já faz isso por padrão."
Brasil nisso
Brasil tem zero capacidade de treinar modelo desse porte. Maior cluster brasileiro é do Sirius/LNLS (supercomputador Santos Dumont, 5.1 petaflops), insuficiente para LLM de 100B+ parâmetros. DeepSeek-V3 precisou ~1.000 petaflops-dia (2.048 GPUs × 256 TFLOPS × 60 dias × eficiência 30%).
Mas Brasil pode rodar DeepSeek-V3 local via pesos open-source. Aplicações:
1. Jurídico
Tribunais brasileiros processam 77 milhões de processos/ano (CNJ, Justiça em Números 2024). DeepSeek-V3 fine-tunado em jurisprudência do STF/STJ faz triagem de recursos repetitivos, sugere teses, analisa precedentes. Custo de inferência 18x menor que GPT-4o viabiliza escala estadual/municipal.
2. Educação pública
MEC gasta R$ 7,2 bilhões/ano em livro didático (FNDE 2024). DeepSeek-V3 fine-tunado em BNCC gera exercícios personalizados de matemática/física para 47 milhões de alunos ensino básico. Modelo local evita envio de dados de menor para servidor americano (LGPD art. 14, tratamento de dados de crianças).
3. Agro
Embrapa tem 9.000 publicações técnicas digitalizadas. DeepSeek-V3 fine-tunado vira assistente de agrônomo: analisa solo, sugere rotação de cultura, calcula dose de NPK. Funciona offline em fazenda sem internet (região Norte/Centro-Oeste).
Problema: Brasil não tem estratégia nacional de LLM. MCTI (Ministério da Ciência, Tecnologia e Inovação) lançou em março "Plano Brasileiro de Inteligência Artificial", mas orçamento é R$ 23 milhões — DeepSeek-V3 custou equivalente a R$ 32 milhões. China investe US$ 278 bilhões em IA até 2030 (plano "Nova Geração de IA", 2017). EUA investem US$ 32 bilhões/ano (NSF, DARPA, DOE somados). Brasil investe migalhas e reza para open-source chinês resolver.
Leitura crítica
DeepSeek-V3 é vitória tática chinesa, não estratégica. Superou GPT-4o em raciocínio matemático, mas:
1. Não superou o1 da OpenAI
Modelo o1 (lançado setembro 2024) usa chain-of-thought explícito, alcança 93.1% no MATH-500 e 83.3% no AIME 2024. DeepSeek-V3 fica em 90.2% e 39.2%. OpenAI ainda lidera em raciocínio complexo multi-step.
2. Custo declarado é suspeito
US$ 5,6 milhões cobre apenas compute + energia + salários diretos. Não cobre:
- Custo de P&D do DeepSeek-V2 (base do V3)
- Custo de aquisição dos 2.048 Ascend 910B (cada chip ~US$ 10.000, total US$ 20 milhões)
- Custo de construção do datacenter
- Custo de curadoria dos 14,8 trilhões de tokens de treinamento
Comparação honesta deveria incluir capex total. Mas mesmo assim, DeepSeek é ordem de magnitude mais barato que GPT-4 — ponto permanece.
3. Ascend 910B ainda é inferior ao H100
Chip Huawei tem 256 TFLOPS FP16 vs 989 TFLOPS do H100. Bandwidth de memória: 900 GB/s vs 3.350 GB/s. Eficiência energética: 310 TFLOPS/W vs 450 TFLOPS/W. China compensou com arquitetura, mas não eliminou gap de hardware. Próxima geração de modelos (1T+ parâmetros) vai esbarrar em limite físico do Ascend.
4. Benchmark não é aplicação real
MATH-500, MMLU, HumanEval medem capacidade em tarefa isolada. Aplicação corporativa real (customer service, análise financeira, code review em produção) tem requisitos diferentes: latência menor que 100ms, consistência 99.9%, integração com ferramentas. DeepSeek-V3 ainda não tem ecossistema de plugins/ferramentas do GPT-4o (Code Interpreter, DALL-E, web browsing). API chinesa tem latência maior para usuário fora da China (roteamento via Hong Kong).
Minha leitura: DeepSeek-V3 quebrou narrativa americana de superioridade inevitável. Provou que embargo de chip retarda, mas não impede. Provou que open-source chinês é competitivo com closed-source americano. Provou que custo de treinamento pode cair 95% com engenharia inteligente.
Mas não provou que China vai liderar frontier AI. OpenAI, Anthropic, Google DeepMind ainda têm vantagem em:
- Acesso a H100/H200/B200 (NVIDIA roadmap 2025-2027)
- Talento: 62% dos papers top-tier de IA têm autor de universidade americana (NeurIPS 2024)
- Dados: internet anglófona tem 10x mais tokens de alta qualidade que internet chinesa (CommonCrawl)
- Capital: venture capital americano investiu US$ 67 bilhões em IA em 2024 vs US$ 13 bilhões chinês (PitchBook)
Corrida está aberta. DeepSeek-V3 é sinal de que China não desistiu — e que subestimar Hangzhou é erro caro.
Igor Morais Vasconcelos é advogado (OAB/DF 35.376), doutorando em IA no IDP e editor-chefe do Mirante News. Escreve Fronteira Tech para acompanhar a competição tecnológica Estados Unidos x China — chips, modelos, papers, embargos e o que realmente move a fronteira.
Perguntas Frequentes
- DeepSeek-V3 é realmente mais barato que GPT-4o?
- Sim. DeepSeek-V3 cobra US$ 0,14 por milhão de tokens de entrada e US$ 0,28 de saída. GPT-4o cobra US$ 2,50 entrada e US$ 10,00 saída — 18x e 36x mais caro, respectivamente.
- Como a China treinou modelo de 671B parâmetros sob embargo de chips?
- Usando Huawei Ascend 910B (7nm SMIC), arquitetura Mixture-of-Experts agressiva (apenas 37B parâmetros ativos por token dos 671B totais) e Multi-Token Prediction que reduz passes de treinamento. Custo total: US$ 5,6 milhões.
- DeepSeek-V3 supera GPT-4o em tudo?
- Não. Supera em MATH-500 (90.2% vs 88.7%), MMLU-Pro (75.9% vs 73.3%) e HumanEval code (88.5% vs 86.9%). Empata em GPQA Diamond (59.1% ambos). Perde em alguns benchmarks de linguagem natural.
Receba o Mirante no seu email
As principais notícias do dia, curadas por inteligência artificial, direto na sua caixa de entrada.