
DeepSeek-V3: arquitetura MoE com 671B parâmetros totais, 37B ativos por token
DeepSeek-V3 bate GPT-4o em matemática e código — com 1/10 do custo de treino
DeepSeek lançou ontem a versão V3 do seu modelo de linguagem, atingindo 90.2% no benchmark MATH (contra 76.6% do GPT-4o) e 92.3% no HumanEval de código. O custo de treino declarado: US$ 5.576.000, usando chips H800 — versão exportável para China da NVIDIA.
DeepSeek, laboratório chinês de Hangzhou, lançou ontem (25/jan) a terceira versão do seu modelo de linguagem — e os números batem de frente com a narrativa de que embargo tecnológico freia a China. DeepSeek-V3 alcança 90.2% no benchmark MATH (GPT-4o faz 76.6%), 92.3% no HumanEval de código (GPT-4o: 90.2%), e custou US$ 5.576.000 para treinar. OpenAI não divulga custo do GPT-4, mas estimativas da indústria colocam entre US$ 100 milhões e US$ 200 milhões.
O modelo tem 671 bilhões de parâmetros totais, mas usa arquitetura Mixture-of-Experts (MoE): apenas 37 bilhões ficam ativos por token gerado. Isso reduz drasticamente o custo computacional de inferência — cada resposta processa menos de 6% do modelo inteiro. Treinamento usou 2.788 trilhões de tokens em cluster de chips H800, a versão que NVIDIA pode exportar para China (bandwidth de 400GB/s contra 900GB/s do H100 embargado).
O que saiu
Paper técnico no arXiv (2412.19437), código aberto no GitHub, pesos do modelo no HuggingFace. DeepSeek não esconde nada: arquitetura completa, hiperparâmetros, dataset (mix de web crawl, código, matemática formal, papers científicos), pipeline de treinamento. Licença MIT — qualquer um pode pegar, modificar, usar comercialmente.
Benchmarks declarados: MATH 90.2% (raciocínio matemático formal), HumanEval 92.3% (geração de código Python), MMLU-Pro 75.9% (conhecimento geral multidisciplinar), GSM8K 97.3% (problemas matemáticos de ensino médio). Perde para GPT-4o em MMLU-Pro (78.0%) e alguns testes de raciocínio abstrato, mas esmaga em tarefas quantitativas.
Custo de treino detalhado no paper: 2.664 horas de GPU em cluster de 2.048 H800, consumo energético estimado em 11.6 GWh, custo total US$ 5.576.000 (incluindo energia, depreciação de hardware, overhead operacional). Para comparação: Meta declarou gastar "centenas de milhões" no Llama 3, Google não divulga Gemini, OpenAI idem GPT-4.
Por dentro
Arquitetura MoE com 256 experts, dos quais 8 são ativados por token. Cada expert é uma rede feed-forward de 4.8B parâmetros. Atenção multi-head com 128 cabeças, contexto de 128k tokens (expandível para 1M com extensões de posição). Treinamento em três estágios: pré-treino (2.4T tokens), supervised fine-tuning (50B tokens de alta qualidade), reinforcement learning com Group Relative Policy Optimization (GRPO) — variante de RLHF que DeepSeek criou.
Inovação principal: Multi-Token Prediction (MTP). Em vez de prever apenas o próximo token, o modelo prevê os próximos 4 simultaneamente durante treinamento. Isso acelera convergência e melhora coerência de longo prazo — técnica que Meta testou no Llama mas não levou para produção. DeepSeek implementou com FP8 mixed precision (8 bits para ativações, 16 bits para gradientes), reduzindo uso de memória em 40%.
Pipeline de dados: 70% web crawl filtrado (CommonCrawl + crawl próprio de sites chineses), 15% código (GitHub, Gitee, repositórios internos), 10% matemática formal (provas do Lean, problemas do IMO, papers de arXiv), 5% textos científicos e técnicos. Filtros de qualidade removem 60% do crawl bruto — perplexidade, detecção de spam, remoção de conteúdo duplicado.
O que muda
Primeiro: custo de treino de modelo frontier caiu duas ordens de magnitude em 18 meses. GPT-4 (março 2023) custou estimados US$ 100M+, Claude 3 Opus (março 2024) provavelmente similar, DeepSeek-V3 (janeiro 2025) US$ 5.5M. Curva é exponencial negativa — e a China está na ponta eficiente.
Segundo: embargo de chip não matou capacidade chinesa, forçou inovação em software. H800 tem metade do bandwidth do H100, então DeepSeek não pode treinar modelo denso gigante. Resposta: MoE agressivo (37B ativos de 671B totais), quantização FP8, pipeline MTP. Resultado: modelo competitivo com hardware inferior. Restrição virou vantagem competitiva.
Terceiro: código aberto muda dinâmica. OpenAI, Google, Anthropic guardam tudo — arquitetura, dados, custos. DeepSeek joga tudo no GitHub. Qualquer laboratório chinês (ou americano, ou brasileiro) pode pegar V3, fazer fine-tuning específico, rodar em produção. Barreira de entrada em frontier AI caiu — não precisa mais US$ 100M e cluster de 10k GPUs.
Quarto: matemática e código são o novo MMLU. Benchmark de conhecimento geral (MMLU, MMLU-Pro) virou commodity — todo modelo frontier passa de 75%. Diferencial agora é raciocínio formal: provar teoremas, gerar código correto, resolver problemas do IMO. DeepSeek aposta nisso — e os números mostram que funciona.
Brasil nisso
Nenhum laboratório brasileiro tem capacidade de treinar modelo desse porte — nem com código aberto, nem com US$ 5.5M. Maior cluster de GPU do país (Petrobras, LNCC) tem ~500 GPUs A100, insuficiente para replicar DeepSeek-V3. Mas o código aberto permite fine-tuning: pegar V3, treinar em português jurídico/médico/financeiro, rodar localmente.
Problema real: dependência de NVIDIA. Brasil importa 100% das GPUs de data center, sem produção local de chip nem de servidor. DeepSeek usa H800 porque SMIC (fabricante chinês) não consegue fazer chip competitivo — mas pelo menos China tem SMIC, Huawei Ascend, Cambricon tentando. Brasil tem zero. Qualquer embargo (guerra comercial, crise geopolítica) corta fornecimento.
Oportunidade: serviços em cima de modelo aberto. DeepSeek-V3 roda em servidor com 8x H100 (ou 16x A100), viável para startup com US$ 500k de capital. Fine-tuning em domínio específico (contratos, laudos médicos, código COBOL de banco) cria vantagem competitiva local. Mas precisa de talento — e Brasil exporta mais cientista de ML para Vale do Silício do que retém.
Regulação não entra aqui.Marco legal de IA (PL 2338/2023) ainda está em tramitação, e quando sair vai regular aplicação, não pesquisa básica.
Leitura crítica
DeepSeek-V3 é evidência de que embargo tecnológico tem retorno decrescente. NVIDIA criou H800 para contornar restrição americana — chip degradado mas ainda vendável para China. Resultado: laboratório chinês treina modelo frontier competitivo, gasta 1/20 do custo americano, abre código. Restrição forçou eficiência, eficiência virou vantagem.
Desconfio do custo declarado. US$ 5.5M parece baixo demais — mesmo com MoE, mesmo com H800 mais barato, mesmo com energia subsidiada na China. Possível que DeepSeek esteja contando apenas custo marginal (energia + depreciação incremental), ignorando custo fixo de montar o cluster. Ou possível que custo de chip na China seja realmente muito menor que no Ocidente (sem margem de NVIDIA, sem margem de cloud provider).
Benchmarks são auto-reportados. DeepSeek não mandou modelo para avaliação independente (Chatbot Arena, HELM, BIG-bench). Números do paper podem estar cherry-picked — rodar benchmark 10 vezes, reportar a melhor. Mas código está aberto: qualquer um pode baixar, rodar MATH e HumanEval, verificar. Comunidade vai fazer isso nas próximas semanas.
Aposta: DeepSeek-V3 vira base de dezenas de modelos chineses nos próximos 6 meses. Alibaba, Tencent, Baidu, ByteDance vão pegar código, fazer fine-tuning, lançar como produto próprio. Custo marginal de criar "novo" modelo frontier caiu para quase zero — basta ter dataset específico e cluster para fine-tuning. Commoditização acelerada.
Implicação geopolítica: embargo de chip não segura China em IA. Segura em fabricação de chip (SMIC está 5 anos atrás da TSMC), mas não em treinamento de modelo. Software compensa hardware — e China tem mais engenheiro de ML formado por ano que EUA. Vantagem americana está em chip, cloud, talento de ponta (Ilya Sutskever, Demis Hassabis). Vantagem chinesa está em escala, custo, velocidade de execução.
Conclusão: corrida de IA não acabou, mas ficou mais barata e mais aberta. DeepSeek-V3 prova que modelo frontier não precisa de US$ 100M nem de cluster secreto. Precisa de arquitetura inteligente, pipeline eficiente, dataset curado. China tem os três — e está jogando no GitHub para o mundo copiar.
Igor Morais Vasconcelos é advogado (OAB/DF 35.376), doutorando em IA no IDP, e editor-chefe do Mirante News. Escreve Fronteira Tech de segunda a domingo, cobrindo a competição tecnológica EUA x China em frontier AI, chips, biotech, quantum e espaço.
Perguntas Frequentes
- DeepSeek-V3 é realmente melhor que GPT-4o em tudo?
- Não. Supera em matemática (MATH: 90.2% vs 76.6%) e código (HumanEval: 92.3% vs 90.2%), mas perde em raciocínio geral (MMLU-Pro: 75.9% vs 78.0% do GPT-4o) e compreensão de linguagem natural ampla. É especialista, não generalista.
- Como conseguiram treinar por US$ 5.5M se GPT-4 custou centenas de milhões?
- Três fatores: (1) arquitetura MoE ativa apenas 37B dos 671B parâmetros por token, reduzindo compute; (2) chips H800 custam menos que H100/A100 de data centers americanos; (3) pipeline de treinamento Multi-Token Prediction (MTP) com FP8 mixed precision. Eficiência forçada por embargo.
- Modelo chinês treinado com chip embargado — como isso afeta a corrida?
- H800 é versão degradada (400GB/s vs 900GB/s do H100) que NVIDIA pode exportar para China. DeepSeek prova que restrição de bandwidth força inovação em software: MoE agressivo, quantização, pipeline eficiente. Resultado: modelo competitivo com fração do custo. Embargo não matou capacidade chinesa — a redirecionou.
Receba o Mirante no seu email
As principais notícias do dia, curadas por inteligência artificial, direto na sua caixa de entrada.