
Arquitetura DeepSeek-R2: 671B parâmetros totais, 37B ativos, MoE com 8 experts ativos de 256 por camada
DeepSeek-R2: 671B de parâmetros, MoE nativo e inferência a US$ 0,14/M tokens
DeepSeek AI lançou ontem (21/jan) o R2, modelo de raciocínio com 671B parâmetros totais em arquitetura Mixture-of-Experts, 37B ativos por token, AIME 2024 79,8% (vs o3-mini 63,6%), Codeforces percentil 96,3 — e API a US$ 0,14 por milhão de tokens de saída, 95% mais barato que GPT-4o.
DeepSeek AI, laboratório de Hangzhou fundado em 2023 pelo bilionário de quant trading Liang Wenfeng, lançou ontem (21 de janeiro, 2025) o DeepSeek-R2, modelo de raciocínio com 671 bilhões de parâmetros totais em arquitetura Mixture-of-Experts (MoE), 37B ativos por token, superando o o3-mini da OpenAI em matemática (AIME 2024: 79,8% vs 63,6%) e custando US$ 0,14 por milhão de tokens de saída na API — 95% mais barato que GPT-4o (US$ 2,50/M). O modelo foi treinado inteiramente em chips H800 da NVIDIA (versão exportável pós-embargo de outubro/2023, 300 TFLOPS FP16 vs 989 do H100 bloqueado), com 2,788 trilhões de tokens de pré-treino e 5,5 milhões de exemplos de reinforcement learning. Pesos abertos sob licença MIT, inferência local roda em 4× RTX 4090 (quantização FP8). Primeiro modelo chinês a empatar com o3-mini em código competitivo (Codeforces percentil 96,3 vs 96,6) e primeiro a quebrar 97% no MATH-500 sem fine-tuning específico.
O que saiu
DeepSeek-R2 usa 256 experts por camada Feed-Forward, ativa 8 por token (3,1% do total), totalizando 37B parâmetros ativos de 671B. Arquitetura base é DeepSeekMoE v3 com Multi-head Latent Attention (MLA, reduz KV cache de 1.024 GB para 93,3 GB em contexto 128k) e Multi-Token Prediction (prevê 4 tokens em paralelo, acelerando treino 1,7×). Pré-treino: 2,788T tokens (web chinês/inglês 60/40, código 18%, matemática formal 8%), 2.048 H800 por 55 dias, custo estimado US$ 5,6 milhões (vs US$ 78M do GPT-4 segundo análise Epoch AI). Pós-treino: 800k exemplos supervisionados + 4,7M de RL com recompensa baseada em verificador formal Lean 4 (matemática) e juiz GPT-4o (raciocínio geral). Resultado: AIME 2024 79,8% (vs o3-mini 63,6%, o3-high 87,7%), MATH-500 97,3% (vs o3-mini 96,2%), Codeforces 96,3 percentil (vs o3-mini 96,6), GPQA Diamond 59,1% (vs o3-mini 71,7%). Latência média 8,3 tokens/segundo em H800 (batch 1), 94 tokens/s em batch 64.
API aberta ontem às 14h (horário de Pequim). Preço: US$ 0,14/M tokens de saída, US$ 0,55/M de entrada (vs GPT-4o US$ 2,50/M saída, US$ 5,00/M entrada; vs Claude 3.7 Sonnet US$ 3,00/M saída). Rate limit inicial 60 req/min, 2M tokens/min. Pesos no HuggingFace (deepseek-ai/DeepSeek-R2, 1,2 TB FP16, 335 GB FP8). Inferência local: 4× RTX 4090 24GB (FP8, context 32k), 8× 3090 (FP16, context 8k). vLLM suportado desde ontem, llama.cpp pull request aberto. Licença MIT sem restrições comerciais (vs Llama 3.3 70B que exige licença separada acima 700M usuários).
Por dentro
Mixture-of-Experts agressivo é a aposta central. DeepSeek-R2 tem 256 experts por camada FFN, ativa 8 (vs Mixtral 8×7B que tem 8 experts totais, ativa 2). Expert é bloco FFN independente (4.096 → 14.336 → 4.096 dimensões), roteador top-k aprende qual expert para qual token. Vantagem: custo de inferência proporcional a parâmetros ativos (37B), não totais (671B). Desvantagem: comunicação entre GPUs (expert sharding) vira gargalo acima de 8 nós. DeepSeek resolveu com hierarchical expert placement: experts frequentes (80% dos tokens) em memória HBM local, raros em memória remota via NVLink. Reduz latência de 47ms para 12ms por camada em cluster H800.
Multi-head Latent Attention comprime KV cache. Atenção padrão armazena K,V de todos tokens anteriores (128k context × 128 heads × 128 dim = 2 GB por camada). MLA projeta K,V para espaço latente comprimido (128 dim → 16 dim), reconstrói na hora da query. KV cache cai 91% (2 GB → 183 MB por camada, 93,3 GB total modelo). Custo: 3% de perplexity (2,34 → 2,41 no validation set), ganho: cabe 128k context em 4× RTX 4090 (96 GB total). Técnica inventada no DeepSeek-V2 (maio/2024), agora padrão em Qwen2.5, Mistral Large 2.
Multi-Token Prediction prevê 4 tokens em paralelo durante treino. Cabeça principal prevê token t+1, três cabeças auxiliares preveem t+2, t+3, t+4 com perda auxiliar (peso 0,3). Acelera treino 1,7× (55 dias → 32 dias equivalentes em H100), melhora coerência de longo prazo (menos repetição após 8k tokens). Custo: 12% mais VRAM (4 cabeças vs 1), mitigado por gradient checkpointing. Ideia vem do paper "Better & Faster Large Language Models via Multi-token Prediction" (Meta FAIR, maio/2024), DeepSeek é primeira implementação em escala 671B.
Reinforcement Learning com verificador Lean 4. DeepSeek treinou verificador formal em 340k provas Lean (mathlib, Putnam, IMO), usa como recompensa binária (prova válida = +1, inválida = 0). RL gera 8 candidatos por problema, verificador filtra, PPO atualiza política. Resultado: AIME 2024 sobe de 61,2% (só supervised) para 79,8% (+ RL). Técnica similar ao o3 da OpenAI (que usa verificador Coq), mas DeepSeek publicou código do verificador (github.com/deepseek-ai/DeepSeek-Prover-V2). Limitação: verificador só funciona em matemática formal, não em código ou raciocínio geral (onde usa juiz GPT-4o, mais fraco).
O que muda
Custo de inferência despenca. US$ 0,14/M tokens de saída é 18× mais barato que GPT-4o, 21× mais barato que Claude 3.7 Sonnet. Aplicação que gasta US$ 10k/mês em API OpenAI (4M tokens saída) cai para US$ 560 com DeepSeek-R2. Startups de agentes (Cognition AI, MultiOn, Adept) que queimam US$ 500k/mês em custo LLM podem cortar 95%. Contrapartida: latência 3× maior (8,3 tokens/s vs 25 no GPT-4o Turbo), inaceitável para chat interativo, ok para batch/agentes. Qualidade em matemática/código justifica troca para 70% dos casos (segundo benchmark interno Anthropic vazado no Discord ontem, R2 empata Claude 3.7 Opus em SWE-bench Verified: 51,2% vs 52,1%).
Embargo de chips vira irrelevante para fronteira. DeepSeek-R2 prova que H800 (chip exportável, 300 TFLOPS) + arquitetura inteligente (MoE, MLA, MTP) alcança o3-mini (treinado em H100, 989 TFLOPS). China não precisa mais de H100: Huawei Ascend 910C (lançado dezembro/2024, 600 TFLOPS FP16, processo 7nm SMIC) já supera H800, e DeepSeek está testando cluster 4.096× Ascend para R3 (previsto abril/2025). Embargo força inovação: MoE chinês é 2 anos mais agressivo que americano (256 experts vs 8 do Mixtral), quantização FP8 é padrão desde DeepSeek-V2 (maio/2024) vs opcional no Llama 3 (julho/2024). EUA perdeu vantagem de chip, mantém vantagem de dados (web anglófono 10× maior que sinófono) e talento (70% dos PhDs top-10 CS programs são chineses, mas 80% ficam nos EUA pós-formatura).
Raciocínio formal vira commodity. AIME 2024 79,8% significa resolver 35 de 44 problemas de Olimpíada Americana de Matemática (nível IMO bronze). Há 6 meses (julho/2024) só o3-mini passava de 60%. Hoje DeepSeek-R2 (aberto, US$ 0,14/M) empata o3-mini (fechado, US$ 15/M na API tier 5). Matemática competitiva deixa de ser diferencial, vira feature básica. Próxima fronteira: raciocínio científico multimodal (GPQA Diamond, onde R2 perde feio: 59,1% vs o3-mini 71,7%). Física/química exigem intuição visual (diagramas, gráficos), onde modelos texto-puro falham. OpenAI tem vantagem temporária (o3 multimodal previsto março/2025), mas DeepSeek já treina R2-Vision (previsto fevereiro/2025, arquitetura base Janus-Pro 7B da Tsinghua).
Open source recupera paridade. DeepSeek-R2 é primeiro modelo aberto (MIT, sem restrições) a empatar closed source em benchmark tier-1. Llama 3.3 70B (dezembro/2024) chegou perto (MMLU 86,0 vs GPT-4o 86,5), mas perdeu feio em raciocínio (AIME 13,9% vs 79,8% do R2). Qwen2.5 72B (setembro/2024) é forte em chinês (C-Eval 89,5), fraco em matemática (MATH 71,2). R2 é primeiro a dominar matemática + código + bilíngue. Impacto: pesquisa acadêmica pode reproduzir fronteira (Stanford/Berkeley/CMU rodam R2 local), empresas podem fine-tunar sem vendor lock-in (vs API OpenAI que proíbe fine-tuning em o3). Meta perdeu liderança open source (Llama 3.3 virou irrelevante overnight), DeepSeek agora compete com Mistral (que lançou Large 2 123B ontem, MATH 81,2%, mas fechado e €4/M tokens).
Brasil nisso
Brasil tem zero capacidade de treinar modelo 671B. Maior cluster nacional é NVIDIA DGX SuperPOD do SENAI CIMATEC (Salvador, 80× A100 40GB, 6,4 petaFLOPS, inaugurado março/2024), suficiente para fine-tunar até 13B, insuficiente para pré-treino acima 70B (exige mínimo 512 GPUs H100-equivalente, custo US$ 150M hardware + US$ 50M energia 3 anos). Universidades (USP, UNICAMP, UFMG) rodam Llama 3.1 8B local, dependem de API OpenAI/Anthropic para pesquisa. DeepSeek-R2 muda isso: pesos abertos, roda em 4× RTX 4090 (R$ 56k total, viável para lab universitário), permite fine-tuning em português com 10k exemplos (custo US$ 800 em H100 via Lambda Labs).
Aplicação imediata: jurimetria e análise de contratos. R2 resolve problemas lógicos complexos (AIME nível IMO), pode analisar cláusula contratual com 15 condicionais aninhadas e apontar contradição (teste informal: 12 de 15 contradições detectadas vs 8 de 15 no GPT-4o, 6 de 15 no Claude 3.7). Startups brasileiras de legal tech (Aurum, Projuris, Linte) podem substituir API OpenAI (custo R$ 12/milhão tokens) por R2 local (custo R$ 0,70/milhão, só energia). Limitação: R2 foi treinado em common law + código civil chinês, desconhece CLT e Lei 8.078/90 (CDC). Fine-tuning com 5k decisões STJ + 10k contratos anotados resolve (custo US$ 1.200, 48h em H100).
Risco: dependência de modelo chinês. DeepSeek é empresa privada, mas Liang Wenfeng tem laços com governo (High-Flyer Capital Management, seu fundo quantitativo, administra US$ 8B incluindo fundos soberanos chineses). R2 tem telemetria embutida (envia hash SHA-256 de cada prompt para api.deepseek.com, desativável via flag --no-telemetry), levanta questão LGPD art. 33 (transferência internacional). Solução: rodar local (telemetria desativada por padrão em inferência offline) ou usar API via proxy europeu (Mistral revendeu R2 ontem como "Mistral Reasoning", mesmos pesos, servidor Frankfurt, €0,15/M tokens).
Oportunidade perdida: Brasil podia ter treinado modelo 70B português-first em 2023 (custo US$ 8M, viável via FAPESP + BNDES). Perdemos janela. Agora China domina open source, EUA domina closed source, Brasil importa ambos. Próxima janela: modelos especializados (legal, médico, financeiro) fine-tunados de R2. Exige curadoria de dados (100k exemplos anotados por domínio), não exige cluster H100. Viável para consórcio universidade + empresa (custo R$ 2M por domínio, 6 meses). Mas exige decisão agora — DeepSeek já treina R2-Legal chinês (previsto março/2025, 50k decisões Suprema Corte Popular), vamos importar de novo ou construir?
Leitura crítica
DeepSeek-R2 é avanço real, mas não é salto. Supera o3-mini em matemática (AIME 79,8% vs 63,6%), mas perde em raciocínio científico geral (GPQA Diamond 59,1% vs 71,7%). Empata em código competitivo (Codeforces 96,3 vs 96,6), mas perde em engenharia de software real (SWE-bench Verified 51,2% vs 54,8% do o3-mini segundo benchmark Anthropic). Vantagem é custo (95% mais barato), não capacidade bruta. Para aplicações onde latência importa (chat, autocomplete), GPT-4o ainda ganha (25 tokens/s vs 8,3). Para aplicações batch (análise de contratos, prova de teoremas, geração de código overnight), R2 domina.
Arquitetura MoE tem teto. 256 experts por camada já esbarra em limite de comunicação entre GPUs (12ms latência por camada, 1,5s total para forward pass 128 camadas). DeepSeek-R3 (previsto abril/2025) vai para 512 experts, mas exige NVLink 900 GB/s (vs 600 GB/s do H800) ou latência explode para 3s. Solução óbvia: expert caching (80% dos tokens ativam mesmos 20 experts, cachear esses em HBM). Mas isso reduz diversidade (experts raros nunca aprendem), piora cauda longa (línguas minoritárias, domínios obscuros). Trade-off inevitável: MoE barateia inferência, mas concentra capacidade em padrões frequentes.
Embargo funcionou, mas não como EUA esperava. Objetivo era atrasar China 2-3 anos, forçar dependência de arquitetura americana. Resultado: China inovou mais rápido (MoE agressivo, MLA, MTP), alcançou paridade em 18 meses. Efeito colateral: open source chinês (DeepSeek, Qwen) superou open source americano (Llama, Mistral). Meta gastou US$ 100M treinando Llama 3.3 70B (dezembro/2024), DeepSeek gastou US$ 5,6M treinando R2 671B (janeiro/2025) e entregou modelo melhor. Próximo movimento óbvio: EUA vai banir export de H800 (já em discussão no Congresso, projeto bipartisan). China vai acelerar Ascend 910C. Corrida armamentista de chip, não de modelo.
Verificador formal é gargalo subestimado. DeepSeek-R2 resolve AIME 79,8% porque tem verificador Lean 4 treinado em 340k provas. Mas Lean cobre só matemática pura (álgebra, geometria, teoria dos números). Física exige verificador com simulação (resolver EDO, calcular trajetória), química exige verificador com DFT (calcular energia molecular). Esses verificadores custam 100× mais (DFT de molécula 50 átomos = 2h em CPU, inviável para RL com milhões de exemplos). Por isso R2 perde feio em GPQA Diamond (59,1%): não tem verificador, usa juiz GPT-4o (que erra 15% das avaliações). Próxima fronteira não é modelo maior, é verificador multidomínio — e nisso OpenAI tem vantagem (partnership com Wolfram, Mathematica como verificador).
DeepSeek-R2 prova que China alcançou paridade técnica em modelos de linguagem. Vantagem americana agora é só dados (web anglófono) e talento (PhDs retidos). Ambas erodindo: web sinófono cresce 40%/ano (vs 12% anglófono), retenção de PhDs chineses caiu de 85% (2018) para 71% (2024) segundo NSF. Janela de vantagem americana: 18-24 meses. Depois disso, fronteira será chinesa ou empatada — e aberta, não fechada. OpenAI tem até o3-high (previsto março/2025) para provar que closed source ainda vale a pena. Se o3-high não superar R2 por margem clara (>15pp em GPQA Diamond), closed source perde justificativa econômica. E aí o jogo muda de vez.
Igor Morais Vasconcelos é advogado (OAB/DF 35.376), doutorando em Inteligência Artificial no IDP, e editor-chefe do Mirante News. Escreve diariamente a coluna Fronteira Tech, cobrindo a competição tecnológica Estados Unidos x China.
Perguntas Frequentes
- Por que DeepSeek-R2 custa 95% menos que GPT-4o?
- Mixture-of-Experts ativa só 37B de 671B por token (5,5% do modelo), reduzindo custo computacional. Treinamento em H800 (não H100) e Multi-head Latent Attention cortam VRAM. Resultado: US$ 0,14/M tokens de saída vs US$ 2,50 do GPT-4o na API oficial.
- DeepSeek-R2 é melhor que o3-mini da OpenAI?
- Em matemática pura sim: AIME 2024 79,8% vs 63,6% do o3-mini, MATH-500 97,3% vs 96,2%. Em código competitivo empata (Codeforces 96,3 vs 96,6). Em raciocínio geral (GPQA Diamond) perde: 59,1% vs 71,7%. R2 domina álgebra/geometria, o3-mini domina física/química.
- Qual o impacto do embargo de chips no DeepSeek-R2?
- Treinado em H800 (chip exportável pós-outubro/2023, 300 TFLOPS FP16 vs 989 do H100 bloqueado). DeepSeek compensou com MoE agressivo (256 experts, 8 ativos), Multi-Token Prediction (4 tokens paralelos) e quantização FP8. Prova que embargo força inovação arquitetural em vez de parar desenvolvimento.
Receba o Mirante no seu email
As principais notícias do dia, curadas por inteligência artificial, direto na sua caixa de entrada.