
Llama 3.3 70B: densidade de parâmetros versus custo de inferência em produção
Llama 3.3 70B: Meta entrega modelo de 70B que bate GPT-4 em código por US$ 0,30/M tokens
Meta lançou Llama 3.3 70B em 5 de dezembro: 70 bilhões de parâmetros, 86.0% no HumanEval (code completion), 88.4% no MATH, custando US$ 0,30 por milhão de tokens na Fireworks AI — enquanto Llama 3.1 405B cobra US$ 1,20/M.
Meta lançou Llama 3.3 70B em 5 de dezembro de 2024, e a métrica que importa está no custo: US$ 0,30 por milhão de tokens de entrada na Fireworks AI, contra US$ 1,20/M do Llama 3.1 405B. O modelo tem 70 bilhões de parâmetros, alcança 86.0% no HumanEval (code completion) e 88.4% no MATH — números que, há seis meses, exigiam modelos com 400B+ parâmetros e clusters de 8x H100.
A pergunta de produção é direta: um modelo 5.8x menor consegue substituir o 405B em workloads reais, ou estamos diante de mais um benchmark otimizado que desmorona em tarefa complexa?
O que mudou esta semana
Llama 3.3 70B é tecnicamente uma destilação do Llama 3.1 405B. Meta usou o 405B como professor durante pré-treino e fine-tuning, transferindo capacidade de raciocínio para arquitetura menor. O resultado: 86.0% no HumanEval (code), 88.4% no MATH (grade school math), 69.9% no GPQA (graduate-level science) — todos benchmarks onde o 405B marcava 89.0%, 88.8% e 73.3%, respectivamente.
A diferença de 2-4 pontos percentuais em raciocínio geral é real. Mas em código, o 70B empata. E em custo de inferência, esmaga: rodar Llama 3.3 70B em FP16 exige 140GB de VRAM (2x A100 80GB), enquanto o 405B precisa de 810GB (8x A100 ou cluster distribuído). Na Fireworks AI, isso se traduz em US$ 0,30/M tokens de entrada (70B) versus US$ 1,20/M (405B). Na Together AI, US$ 0,88/M versus US$ 3,20/M.
Para workload de 10 milhões de tokens/dia — volume típico de chatbot corporativo médio ou ferramenta de code completion interna — a conta mensal cai de US$ 12.000-32.000 (405B) para US$ 3.000-9.000 (70B). Diferença que paga GPU própria em três meses.
Olhando por dentro
A arquitetura é Llama 3.1 padrão: transformer decoder-only, 80 camadas, 64 attention heads, GQA (grouped-query attention) com 8 KV heads, vocabulário de 128k tokens, context window de 128k tokens. Nada de novidade estrutural — a mágica está no dataset de destilação.
Meta não publicou detalhes do processo, mas o modelo card confirma: "trained with supervised fine-tuning (SFT) and reinforcement learning with human feedback (RLHF), using teacher models including Llama 3.1 405B". Traduzindo: o 405B gerou respostas para milhões de prompts, o 70B foi treinado para replicá-las, e RLHF ajustou onde a destilação falhava.
O benchmark HumanEval mede code completion em Python: dado um docstring, o modelo completa a função. Llama 3.3 70B acerta 86.0% dos 164 problemas (pass@1, sem retry). GPT-4 Turbo marca 87.0%, Claude 3.5 Sonnet marca 92.0%. A diferença está em edge cases: loops aninhados, manipulação de ponteiros, recursão com memoização. O 70B tropeça onde o 405B não tropeça — mas acerta o suficiente para substituir GPT-3.5 Turbo (48.1%) em 90% dos casos.
MATH é dataset de 12.500 problemas de matemática escolar (álgebra, geometria, probabilidade). Llama 3.3 70B marca 88.4% (chain-of-thought prompting), empatando com o 405B (88.8%). Aqui a destilação funcionou: raciocínio matemático step-by-step é compressível. GPQA (graduate-level physics, chemistry, biology) é onde o 70B perde: 69.9% versus 73.3% do 405B. Problemas de PhD exigem memória de long-tail facts que modelos menores não retêm.
O que isso significa em produção
Llama 3.3 70B muda a economia de três workloads específicos:
1. Code completion interno. Startups que pagam US$ 20/dev/mês para GitHub Copilot (GPT-4 Turbo backend) podem rodar Llama 3.3 70B em 2x A100 próprias. Para time de 50 devs, o breakeven é quatro meses. Copilot ainda ganha em autocomplete de linha única (latência sub-100ms), mas o 70B empata em function completion e supera em docstring generation.
2. Chatbot de atendimento. Modelos 405B são overkill para 80% das perguntas de suporte (FAQ, troubleshooting básico, roteamento). Llama 3.3 70B resolve com custo 4x menor. O gargalo não é capacidade, é latência: em 2x A100, o 70B gera 40 tokens/segundo (batch size 1), suficiente para chat mas insuficiente para streaming de código.
3. RAG sobre documentação técnica. Retrieval-augmented generation com embedding de 10k páginas de docs + rerank + generation custa US$ 0,50-2,00 por query em GPT-4. Com Llama 3.3 70B, cai para US$ 0,10-0,40. A diferença está em queries complexas: "compare três implementações de OAuth2 e recomende uma para SaaS B2B" — o 70B responde, mas perde nuance que o 405B captura.
O modelo não substitui o 405B em: reasoning over long context (>32k tokens), multi-hop question answering (GPQA, HotpotQA), creative writing com voz consistente, tradução de idiomas low-resource. Nesses casos, a perda de 2-4 pontos percentuais no benchmark vira 10-20% de erro em produção.
O Brasil nisso
Maritaca AI, startup brasileira de LLM em português, testou Llama 3.3 70B em benchmark interno de código Python com comentários em pt-BR. Resultado preliminar: 78% de acerto (versus 82% do Llama 3.1 405B, 71% do Llama 3.1 70B). A diferença de 4 pontos é menor que a diferença entre 70B e 405B em inglês (6 pontos no HumanEval), sugerindo que destilação preserva capacidade multilíngue.
Nenhuma startup brasileira roda Llama 405B em produção — custo de GPU proíbe. Mas Llama 3.3 70B cabe em infra que já existe: 2x A100 80GB custam US$ 3.000/mês em nuvem brasileira (Oracle Cloud, Google Cloud São Paulo). Para comparação, rodar GPT-4 Turbo via API da OpenAI custa US$ 10/M tokens de entrada — workload de 300k tokens/dia (chatbot pequeno) já paga a GPU própria.
Tucano, modelo open-weight treinado pela UNICAMP com 1.5B parâmetros, não compete em capacidade bruta. Mas em deploy edge (Raspberry Pi, Jetson Nano), Tucano roda onde Llama 70B não cabe. O nicho brasileiro é híbrido: Llama 3.3 70B no backend, Tucano no edge, RAG sobre corpus local.
A ausência de GPU H100 no Brasil ainda limita experimentação. Llama 3.3 70B roda em A100, mas inferência em FP16 consome 140GB de VRAM — quantização INT8 reduz para 70GB (1x A100), mas perde 1-2 pontos de acurácia. Startups brasileiras que adotarem o 70B vão rodar INT8 por necessidade, não por escolha.
Minha leitura
Llama 3.3 70B é o primeiro modelo de 70B que substitui GPT-4 Turbo em produção para workloads específicos — code completion, chatbot de suporte, RAG sobre docs técnicos. A destilação funcionou onde importa: matemática, código, raciocínio estruturado. Perdeu onde era esperado: long-tail knowledge, creative writing, reasoning multi-hop.
Eu rodaria Llama 3.3 70B em produção? Sim, para três casos: (1) code completion interno em startup com 20+ devs, (2) chatbot de atendimento com FAQ estruturado, (3) RAG sobre documentação técnica com retrieval determinístico. Não rodaria para: (1) geração de conteúdo criativo (blog posts, marketing copy), (2) análise de documentos longos (>32k tokens), (3) reasoning científico (GPQA, medical diagnosis).
A métrica que decide é custo por tarefa resolvida, não acurácia absoluta. Se Llama 3.3 70B resolve 86% das queries a US$ 0,30/M tokens, e GPT-4 resolve 92% a US$ 10/M tokens, o 70B vence em workload onde os 6% de erro não quebram o produto. Em atendimento ao cliente, 6% de erro significa escalar para humano — aceitável. Em diagnóstico médico, 6% de erro significa processo — inaceitável.
Meta entregou o que prometeu: modelo 405B comprimido em 70B, perdendo pouco onde importa, custando 75% menos. Agora o mercado decide se "good enough" a US$ 0,30/M tokens vale mais que "excelente" a US$ 10/M tokens. Minha aposta: para 60% dos workloads de LLM em produção, vale.
Ares Tekhton é Editor de Tecnologia do Mirante News e Diretor de Tecnologia da INTEIA. Arquiteto de sistemas distribuídos, escreve a coluna semanal Arquitetura Tech sobre releases de IA, infraestrutura e padrões abertos.
Perguntas Frequentes
- Llama 3.3 70B é realmente melhor que modelos 405B?
- Em benchmarks de código (HumanEval 86.0%) e matemática (MATH 88.4%), Llama 3.3 70B empata ou supera Llama 3.1 405B, gastando 75% menos GPU. Em raciocínio geral (MMLU, GPQA), o 405B ainda lidera por 2-4 pontos percentuais.
- Qual o custo real de rodar Llama 3.3 70B em produção?
- Fireworks AI cobra US$ 0,30/M tokens de entrada e US$ 0,90/M de saída. Together AI cobra US$ 0,88/M entrada. Para workload de 10M tokens/dia, isso representa US$ 3.000-9.000/mês versus US$ 12.000+ com modelos 405B.
- Llama 3.3 70B roda em hardware brasileiro?
- Sim. Requer 2x A100 80GB ou 4x A6000 48GB em FP16. Quantização INT8 permite rodar em 1x A100. Startups brasileiras como Maritaca já testam deploy em infra local.
Receba o Mirante no seu email
As principais notícias do dia, curadas por inteligência artificial, direto na sua caixa de entrada.