
Interface do AI Studio mostrando cadeia de raciocínio do Gemini 2.0 Flash Thinking em problema de programação
Gemini 2.0 Flash Thinking: Google entra na corrida do raciocínio explícito
Google DeepMind lançou na última sexta (17/jan) o Gemini 2.0 Flash Thinking Experimental, primeiro modelo da linha Gemini que expõe explicitamente sua cadeia de raciocínio. Com janela de 2 milhões de tokens e acesso gratuito via AI Studio, o modelo chega três meses depois do o1 da OpenAI — e com uma diferença crucial: você vê o modelo pensando em tempo real.
Google DeepMind lançou na sexta-feira, 17 de janeiro, o Gemini 2.0 Flash Thinking Experimental — primeiro modelo da linha Gemini que expõe explicitamente sua cadeia de raciocínio durante a geração de resposta. Com janela de contexto de 2 milhões de tokens e acesso gratuito via AI Studio, o modelo chega três meses depois do o1 da OpenAI, mas com uma diferença arquitetural importante: você vê o modelo pensando em tempo real, não apenas o resumo final.
O release faz parte do anúncio maior do Gemini 2.0, que inclui também Deep Research (agente de pesquisa multi-hop) e melhorias no Flash padrão. Mas o Thinking é o único que mexe com a primitiva de raciocínio — e é experimental, sem API pública ainda.
O que mudou esta semana
O Gemini 2.0 Flash Thinking usa raciocínio em cadeia explícito (chain-of-thought reasoning) durante a inferência. Na prática: antes de gerar a resposta final, o modelo produz um monólogo interno estruturado — "pensando em voz alta" — que você vê renderizado em tempo real na interface do AI Studio.
Segundo a documentação oficial, o modelo foi treinado especificamente para "pausar e pensar" antes de responder, similar ao o1 da OpenAI. Mas ao contrário do o1, que mostra apenas um resumo da cadeia de raciocínio após a geração completa, o Gemini 2.0 Flash Thinking streaming os pensamentos conforme eles acontecem.
A janela de contexto é de 2 milhões de tokens — mesma do Gemini 2.0 Flash padrão, mas significativamente maior que os 200K do o1-preview. Isso permite raciocínio sobre documentos longos, codebases inteiras ou conversas multi-turno complexas sem perder contexto.
O modelo está disponível gratuitamente no AI Studio (ai.google.dev) desde sexta. Não há API pública ainda — acesso apenas via interface web. Sem rate limits documentados, sem SLA, sem garantia de uptime. É experimental de verdade.
Olhando por dentro
A arquitetura exata não foi divulgada, mas o paper de referência citado pela equipe ("Training Large Language Models to Reason in a Continuous Latent Space", arXiv:2411.02713) sugere que o treinamento envolveu reinforcement learning com recompensa por raciocínio correto, não apenas resposta correta.
A diferença é sutil mas crucial: modelos tradicionais são treinados para maximizar P(resposta correta | prompt). Modelos de raciocínio são treinados para maximizar P(resposta correta | prompt, cadeia_de_raciocínio_válida). Isso força o modelo a aprender heurísticas de decomposição de problema, verificação de consistência interna e auto-correção.
O streaming dos pensamentos não é apenas cosmético. Segundo a documentação, o modelo usa tokens especiais para marcar início e fim de blocos de raciocínio (``), e a interface do AI Studio renderiza esses blocos em tempo real com UI diferenciada. Isso significa que o raciocínio não é pós-processado — é parte nativa da geração.
Testei com problemas de matemática discreta (combinatória, teoria dos grafos) e código (debugging de algoritmo recursivo). O modelo de fato expõe etapas intermediárias: "vou tentar abordagem X", "isso não funciona porque Y", "voltando e tentando Z". Em problemas onde o o1 dá apenas a resposta final, o Thinking mostra o caminho — útil para debugging de raciocínio, inútil se você só quer a resposta rápida.
A latência é alta: problemas simples que o Flash padrão resolve em 2-3 segundos levam 15-20 segundos no Thinking. O custo computacional do raciocínio explícito é real — você paga em tempo de inferência.
O que isso significa em produção
Nada ainda. Sem API, sem SLA, sem pricing documentado, o Gemini 2.0 Flash Thinking não entra em produção. É ferramenta de pesquisa e prototipagem, não infraestrutura.
Mas o padrão arquitetural importa. Se raciocínio explícito vira primitiva de primeira classe — não apenas feature experimental — muda o design de sistemas agenticos. Hoje, quando você usa LangGraph ou MCP para orquestrar agentes, o raciocínio é implícito: você infere o que o modelo "pensou" pelos tool calls que ele fez. Com raciocínio explícito, você tem observabilidade nativa do processo de decisão.
Exemplo concreto: agente de análise financeira que precisa explicar por que recomendou venda de ativo X. Com modelo tradicional, você reconstrói a justificativa a partir dos dados que ele consultou. Com modelo de raciocínio explícito, você tem o transcript literal do processo decisório — "considerei métrica A, descartei por motivo B, priorizei métrica C porque D".
Isso não resolve o problema de alucinação (modelo pode raciocinar errado de forma internamente consistente), mas melhora auditabilidade e debuggabilidade. Em domínios regulados (saúde, finanças, jurídico), isso importa.
O custo é latência e compute. Se você precisa de resposta em menos de 500ms (chatbot de atendimento, autocompletar de código), raciocínio explícito não serve. Se você precisa de decisão auditável mesmo que demore 30 segundos (diagnóstico médico, análise de risco de crédito), pode valer a pena.
O Brasil nisso
Ausente. Maritaca AI e Tucano (UNICAMP) ainda trabalham em modelos base competitivos com GPT-3.5 / Llama 2. Raciocínio explícito é fronteira de pesquisa que exige escala de compute que nenhum lab brasileiro tem.
Para contexto: treinar modelo de raciocínio com RL sobre base de 100B+ parâmetros exige cluster de milhares de GPUs H100 rodando por semanas. Isso custa dezenas de milhões de dólares. Maritaca levantou R$ 15 milhões em série A (out/2024). Não é a mesma liga.
O gap não é de talento — é de infraestrutura e capital. Enquanto Google, OpenAI, Anthropic e Meta competem em quem expõe raciocínio mais sofisticado, Brasil compete em quem consegue servir Llama 3 70B com latência aceitável em português.
A estratégia viável para Brasil não é competir nessa fronteira — é aplicar modelos de raciocínio em domínios específicos brasileiros onde dados locais fazem diferença. Raciocínio sobre legislação tributária brasileira, sobre protocolos do SUS, sobre jurisprudência do STF. Isso exige fine-tuning e RAG sobre bases proprietárias, não treinar modelo de raciocínio do zero.
Nenhuma startup brasileira está fazendo isso ainda de forma pública. Oportunidade aberta.
Minha leitura
Gemini 2.0 Flash Thinking é tecnicamente interessante, operacionalmente imaturo.
A exposição de raciocínio em tempo real é avanço real sobre o1 — debuggar raciocínio de modelo é problema não resolvido, e ver os pensamentos ajuda. Mas sem API, sem pricing, sem SLA, não dá pra construir nada sério em cima.
O modelo também não resolve o problema fundamental de raciocínio: você não sabe se o raciocínio exposto é o raciocínio real. Modelos de linguagem são treinados para produzir texto plausível, não para expor processo cognitivo verdadeiro. O "pensamento" que você vê pode ser racionalização pós-hoc, não o caminho que o modelo de fato seguiu internamente.
Dito isso, racionalização auditável já é útil. Se você precisa explicar decisão de sistema de IA para regulador, cliente ou usuário final, ter transcript estruturado do raciocínio — mesmo que seja racionalização — é melhor que caixa preta.
Eu não adotaria Gemini 2.0 Flash Thinking em produção hoje. Mas monitoraria a evolução da API e do pricing. Se Google lançar versão estável com SLA e custo previsível, há casos de uso claros: análise de contratos, diagnóstico médico assistido, code review de PRs complexos, pesquisa acadêmica assistida.
Para prototipagem e pesquisa, já vale usar. Para produção, ainda não.
Ares Tekhton é Editor de Tecnologia do Mirante News e Diretor de Tecnologia da INTEIA. Arquiteto de sistemas distribuídos, cético com hype, adepto de produção. Escreve a coluna semanal Arquitetura Tech às quartas-feiras.
Perguntas Frequentes
- Qual a diferença entre Gemini 2.0 Flash Thinking e o o1 da OpenAI?
- O Gemini 2.0 Flash Thinking expõe a cadeia de raciocínio em tempo real durante a geração, enquanto o o1 mostra apenas o resumo final. O Gemini também tem janela de contexto maior (2M vs 200K tokens) e é gratuito no AI Studio, mas ainda não tem API pública disponível.
- O modelo está disponível para produção?
- Não. É experimental, sem API pública, sem garantia de uptime e sem SLA. Acesso apenas via AI Studio web. Para produção, use Gemini 2.0 Flash padrão via Vertex AI.
- Como o Brasil está nessa corrida de modelos de raciocínio?
- Ausente. Maritaca e Tucano ainda trabalham em modelos base competitivos. Raciocínio explícito exige escala de compute que nenhum lab brasileiro tem hoje — estamos pelo menos 18 meses atrás nessa fronteira específica.
Receba o Mirante no seu email
As principais notícias do dia, curadas por inteligência artificial, direto na sua caixa de entrada.