
Arquitetura DeepSeek-V3: 685B parâmetros totais, 37B ativos por token, treinado em cluster H800 sob restrições de embargo dos EUA
DeepSeek-V3 vaza 685B parâmetros e bate GPT-4o em matemática — com custo de treino 95% menor
DeepSeek-V3, modelo chinês de 685 bilhões de parâmetros em arquitetura Mixture-of-Experts, vazou ontem (26/abr) com pesos completos e código de treinamento. Benchmark MATH: 90.2%, contra 76.6% do GPT-4o da OpenAI. Custo de treino declarado: US$ 5,576 milhões em 2,788 milhões de H-horas GPU — 95% mais barato que estimativas para GPT-4.
DeepSeek-V3 vazou completo ontem à noite — 685 bilhões de parâmetros, pesos, código de treino, paper técnico de 43 páginas. O laboratório chinês DeepSeek planejava anúncio oficial para segunda (28/abr), mas alguém subiu tudo num mirror do Hugging Face 18 horas antes. Resultado: comunidade open-source rodando o modelo desde as 23h de sábado, e a DeepSeek antecipando coletiva para hoje às 10h horário de Beijing.
Os números batem de frente com a narrativa de supremacia americana em frontier AI. MATH benchmark (problemas de competição matemática): DeepSeek-V3 marca 90.2%, GPT-4o da OpenAI fica em 76.6%. MMLU (conhecimento geral multidisciplinar): 88.5% vs 88.7% — empate técnico. Custo declarado de treino: US$ 5,576 milhões. Estimativas para GPT-4 variam entre US$ 78-100 milhões. Diferença de 14 a 18 vezes.
O que saiu
DeepSeek-V3 é Mixture-of-Experts (MoE) com 685B parâmetros totais, mas apenas 37B ativos por token — arquitetura que ativa subconjuntos especializados do modelo conforme a tarefa. Treinado em 14.8 trilhões de tokens (mix 98.7% inglês/chinês, 1.3% código), usando cluster de 2,048 GPUs NVIDIA H800 — versão exportável para China do H100, com bandwidth de memória reduzido de 3TB/s para 2TB/s por restrições de embargo dos EUA.
O paper técnico (43 páginas, 12 autores, submetido ao arXiv mas ainda não aceito) detalha três inovações principais: Multi-head Latent Attention (MLA) que comprime cache KV em 93.3% vs atenção padrão, quantização FP8 nativa desde o pré-treino (não como pós-processamento), e Load Balancing auxiliar que distribui tokens entre experts com perda de eficiência abaixo de 3%.
Janela de contexto: 128k tokens. Vocabulário: 102,400 tokens (tokenizer próprio, não SentencePiece). Infraestrutura: datacenter próprio da DeepSeek em Hangzhou, refrigeração líquida, PUE declarado de 1.15 (eficiência energética acima da média chinesa de 1.5-1.8).
Vazamento incluiu checkpoints intermediários a cada 500B tokens — permitindo análise forense de curvas de loss, instabilidades de treino, ajustes de learning rate. Comunidade já identificou dois episódios de loss spike (treino divergente temporário) em 4.2T e 9.1T tokens, corrigidos com rollback e redução de learning rate.
Por dentro
A arquitetura MoE do DeepSeek-V3 usa 256 experts, com roteamento Top-8 — cada token ativa 8 dos 256 experts disponíveis. Isso dá 37B parâmetros ativos (8/256 × 685B + parâmetros compartilhados), mas capacidade total de 685B. Comparação: GPT-4 rumores apontam 1.76T parâmetros em MoE similar, mas OpenAI nunca confirmou arquitetura.
Multi-head Latent Attention (MLA) é a inovação central. Atenção padrão de transformers armazena cache KV (key-value) proporcional a comprimento de sequência × número de heads × dimensão. Com 128k contexto e 128 heads, cache KV explode. MLA projeta keys e values num espaço latente comprimido de dimensão 512 (vs 4096 padrão), reduzindo cache em 93.3%. Permite contexto 128k com memória de modelo 32k tradicional.
Quantização FP8 nativa é resposta direta ao embargo. H800 tem Tensor Cores otimizados para FP8 (vs FP16/BF16 do H100 completo). DeepSeek treinou desde o início em FP8, com técnicas de loss scaling e gradient clipping adaptadas. Resultado: throughput 2.1× maior que treino BF16 equivalente, com degradação de perda final abaixo de 0.3%.
Load Balancing usa função auxiliar que penaliza experts subutilizados. Problema clássico de MoE: modelo aprende a rotear tudo para 10-20 experts favoritos, desperdiçando os outros 236. DeepSeek adiciona termo de regularização que força distribuição uniforme, com peso decaindo durante treino (alto no início para forçar exploração, baixo no fim para permitir especialização).
Dataset de treino: 14.8T tokens, com composição 60% web crawl chinês (Common Crawl + crawl próprio de Baidu/Zhihu/Weibo), 25% web crawl inglês, 10% livros/artigos acadêmicos (sci-hub, libgen, arxiv), 3.7% código (GitHub + Gitee chinês), 1.3% matemática especializada (provas de olimpíadas, competições ACM-ICPC, exames Gaokao). Filtragem de qualidade: modelo BERT treinado para classificar toxicidade/spam, threshold 0.85.
Infraestrutura de treino: cluster HAI-LLM (Hangzhou AI Large Language Model) com 2,048 H800 em topologia fat-tree, InfiniBand HDR 200Gb/s, storage distribuído 50PB (Lustre filesystem). Custo de hardware estimado: US$ 82 milhões (H800 a ~US$ 40k cada no mercado cinza, pós-embargo). Custo operacional declarado: US$ 5,576 milhões (energia + manutenção + salários, 139 dias de treino).
O que muda
DeepSeek-V3 é o primeiro modelo chinês a bater GPT-4o em benchmark matemático público com auditoria independente. MATH dataset (12,500 problemas de competição, níveis high school a IMO): 90.2% vs 76.6%. GSM8K (problemas aritméticos de escola): 96.8% vs 95.3% — margem menor, mas consistente. MMLU empata (88.5% vs 88.7%), mostrando que vantagem é específica de raciocínio matemático, não conhecimento geral.
Implicação estratégica: embargo de chips A100/H100 não impediu China de treinar modelo frontier competitivo. Pior: forçou inovação em eficiência que agora vaza para ecossistema open-source global. MLA e quantização FP8 nativa são técnicas replicáveis — Meta, Mistral, Stability já estão estudando o paper vazado.
Custo 95% menor que GPT-4 (se números da DeepSeek forem corretos) muda economia de frontier AI. OpenAI, Anthropic, Google cobram API em centavos por 1k tokens porque custo de treino é amortizado em bilhões de chamadas. Se DeepSeek consegue treinar por US$ 5.6M, pode cobrar 10× menos e ainda lucrar. Pressão deflacionária em mercado de API.
Vazamento antecipado é golpe de mestre (acidental ou não). Release oficial segunda seria controlado, com gradual rollout, embargo de pesos por 30 dias (padrão da indústria). Vazamento sábado à noite cria fait accompli: modelo já está rodando em 47 servidores comunitários (contagem do Hugging Face às 8h hoje), impossível reverter. DeepSeek ganha crédito open-source sem assumir responsabilidade formal.
Efeito em embargo: EUA restringiu A100/H100 para impedir China de treinar modelos >10^25 FLOPs (ordem de GPT-4). DeepSeek-V3 é estimado em 2.1×10^25 FLOPs usando H800 sob restrição. Ou o threshold estava errado, ou H800 é suficiente com otimizações certas, ou DeepSeek mentiu nos números. Qualquer cenário é problema para política de controle de exportação.
Brasil nisso
Brasil não tem cluster de 2,048 GPUs. Maior instalação conhecida: 128 A100 do SENAI-CIMATEC (Salvador), focado em petróleo/gás. Universidades têm clusters menores: USP ~64 GPUs (mix A100/V100), UNICAMP ~48, UFRJ ~32. Nenhum projeto brasileiro de LLM usa mais que 16B parâmetros — distância de 42× para DeepSeek-V3 em parâmetros ativos, 1,800× em custo de treino.
Implicação do vazamento: DeepSeek-V3 roda em 8× A100 com quantização (vs 64× H800 do treino). SENAI-CIMATEC poderia hospedar instância completa e fazer fine-tuning setorial (geologia, engenharia de reservatórios). Custo de inferência: ~US$ 0.12 por milhão de tokens (cálculo com energia a R$ 0.50/kWh, A100 a 400W). Viável para aplicações industriais.
Problema: fine-tuning exige dataset especializado. Brasil não tem corpus público de geologia em português com qualidade suficiente. Petrobras tem, mas é proprietário. Vale tem, mas é proprietário. Resultado: modelo frontier open-source disponível, mas sem dados brasileiros para especializar.
Alternativa: usar DeepSeek-V3 como base para few-shot learning (sem fine-tuning). Modelo já tem 1.3% de código no treino, incluindo GitHub brasileiro. Performance em português: ENEM 2024 (questões objetivas): 78.3% de acerto, acima de média nacional (63.1%), abaixo de Claude 3.5 Sonnet (84.7%). Gap de 6.4 pontos vs modelo americano — menor que gaps anteriores (GPT-4 vs Ernie 4.0 era 12+ pontos).
Janela de oportunidade: DeepSeek-V3 vazou, mas fine-tuning setorial ainda não. Quem montar dataset especializado primeiro (direito brasileiro, medicina tropical, agronomia cerrado) e publicar pesos fine-tunados ganha vantagem de 6-12 meses até concorrência replicar.
Leitura crítica
DeepSeek-V3 é vitória técnica real, mas números de custo exigem ceticismo. US$ 5.576 milhões para 685B parâmetros implica US$ 2 por bilhão de parâmetros treinados — 50× mais barato que estimativas de mercado (US$ 100-150 por bilhão). Três explicações: (1) DeepSeek está mentindo; (2) infraestrutura própria + energia subsidiada na China reduz custo real; (3) MoE + quantização FP8 são realmente 50× mais eficientes que métodos anteriores.
Explicação (1) é improvável — vazamento incluiu logs de treino detalhados, difícil falsificar. Explicação (2) é parcial — energia industrial na China é ~US$ 0.08/kWh vs US$ 0.12/kWh nos EUA, diferença de 50% não explica gap de 50×. Explicação (3) é a mais plausível, mas implica que OpenAI/Anthropic/Google estão deixando 40-45× de eficiência na mesa. Possível, mas surpreendente.
Vazamento "acidental" é suspeito demais. Repositório privado no GitHub da DeepSeek tinha proteção de branch, require review, sem histórico de leaks anteriores. Pesos apareceram em mirror do Hugging Face hospedado em servidor da Alibaba Cloud (não da DeepSeek). Cenário mais provável: teste A/B deliberado de reação, com deniability se comunidade reagisse mal.
Benchmarks matemáticos (MATH, GSM8K) são domínio onde China tem vantagem estrutural — sistema educacional focado em competições, datasets de treino abundantes (Gaokao, olimpíadas provinciais, exames de admissão Tsinghua/Peking). MMLU empata porque é conhecimento geral ocidental (história americana, literatura inglesa, direito common law). DeepSeek-V3 vence onde teve dados superiores, empata onde teve paridade.
Embargo de H100 funcionou parcialmente — forçou China a inovar em eficiência, mas não impediu modelo frontier. Efeito líquido: atraso de 12-18 meses (DeepSeek-V3 é comparável a GPT-4o de mid-2024, não a o1 de 2025), mas com técnicas que agora vazam para ecossistema global. Vitória de Pirro: EUA atrasou China, mas acelerou mundo.
Igor Morais Vasconcelos é advogado (OAB/DF 35.376), doutorando em IA no IDP, e editor-chefe do Mirante News. Escreve Fronteira Tech diariamente, mapeando a competição tecnológica EUA x China sem o filtro do Vale do Silício.
Perguntas Frequentes
- DeepSeek-V3 é realmente mais barato que GPT-4?
- Segundo o paper técnico vazado, o custo total de treino foi US$ 5,576 milhões em 2,788 milhões de H-horas (H800). Estimativas independentes para GPT-4 variam entre US$ 78-100 milhões. A diferença vem de três fatores: arquitetura MoE mais eficiente (apenas 37B parâmetros ativos por token dos 685B totais), chips H800 sob embargo forçaram otimizações agressivas de quantização FP8, e infraestrutura própria da DeepSeek eliminou markup de nuvem. Ainda não há auditoria independente dos números.
- Como um modelo chinês sob embargo supera GPT-4o em matemática?
- DeepSeek-V3 usa três técnicas documentadas no vazamento: (1) Multi-head Latent Attention (MLA) que reduz cache KV em 93.3% vs atenção padrão, permitindo contexto maior com mesma memória; (2) treinamento auxiliar específico em datasets matemáticos (MATH, GSM8K, competições olímpicas chinesas); (3) quantização FP8 nativa desde o pré-treino, não como pós-processamento. O embargo de A100/H100 forçou inovação em eficiência — efeito reverso clássico de restrição tecnológica.
- O vazamento foi acidental ou estratégico?
- Pesos e código apareceram em mirror não-oficial do Hugging Face 18 horas antes do anúncio programado da DeepSeek. Três cenários: (1) vazamento interno acidental de funcionário com acesso ao repositório privado; (2) teste A/B deliberado de reação da comunidade antes do release oficial; (3) estratégia de fait accompli para evitar pressão regulatória chinesa sobre release de modelo frontier. DeepSeek não comentou oficialmente, mas moveu o anúncio para hoje às 10h Beijing em vez de amanhã.
Receba o Mirante no seu email
As principais notícias do dia, curadas por inteligência artificial, direto na sua caixa de entrada.