Qual é o impacto desta medida no Distrito Federal?

O Brasil tem um modelo de linguagem próprio que rivaliza com o GPT-4o em português.

Que dados comprovam essa informação?

A Maritaca AI lançou o Sabiá-3 com 94% da performance do GPT-4o em português. API compatível com OpenAI, preço por token menor. O Brasil finalmente produz IA, não só consome.

Sabiá-3: o modelo brasileiro que entende português como nenhum outro — e custa uma fração do GPT

O Brasil gasta bilhões de dólares por ano consumindo inteligência artificial estrangeira. Compra API da OpenAI, aluga GPU da Amazon, paga licença do Google. A conta sai em dólar. O conhecimento fica em inglês. E o país continua como cliente — nunca como produtor, ignorando experimentos de ponta que mostram como a inovação pode ser democratizada, como o caso de Karpathy e seu agente de auto-otimização.

A Maritaca AI decidiu mudar esse roteiro. Fundada por Rodrigo Nogueira, ex-pesquisador do Google Brain, a startup lançou o Sabiá-3: um modelo de linguagem treinado especificamente com dados brasileiros, cujo processamento se beneficiará da infraestrutura de ponta que está sendo montada no país, como a que será oferecida pelo data center público de IA no BIOTIC. Corpus jurídico do STF e STJ. Dados demográficos do IBGE. Acervos de mídia nacional. Gírias, regionalismos, a estrutura sintática que só o português brasileiro tem.

O resultado: 94% da performance do GPT-4o em benchmarks de língua portuguesa. Preço por token significativamente inferior. API compatível com o padrão OpenAI — qualquer sistema que roda GPT pode trocar para o Sabiá-3 mudando duas linhas de código.

O que torna o Sabiá-3 diferente

Modelos de linguagem treinados em inglês tratam o português como idioma secundário, um problema que reflete a falta de prioridade para realidades locais, assim como ocorre em outras áreas, como a análise técnica do impacto da reforma tributária federal sobre o Distrito Federal. O GPT-4o, o Claude e o Gemini funcionam em português porque o idioma aparece nos dados de treinamento — mas nunca como prioridade. Isso gera problemas sutis e persistentes.

Concordância verbal com sujeito posposto. Regência de verbos pronominais. A diferença entre "a gente vai" e "nós iremos" em contexto formal. Termos jurídicos que não têm tradução direta do inglês: "agravo de instrumento", "mandado de segurança", "tutela de urgência".

O Sabiá-3 foi treinado com esses dados na origem. Não aprendeu português como tradução do inglês — aprendeu português como português.

Rodrigo Nogueira explicou a abordagem em entrevista à Agência Brasil: o modelo ingeriu decisões judiciais de tribunais superiores, textos legislativos do Congresso, relatórios técnicos de órgãos federais e produções jornalísticas de veículos nacionais. O treinamento priorizou domínios onde modelos estrangeiros apresentam mais falhas em português: direito, administração pública, saúde e agronegócio — setores que também estão no centro do debate sobre a implementação de IA no setor público.

Os números que sustentam a comparação

A Maritaca AI publicou benchmarks comparativos. Em tarefas de compreensão de texto em português, o Sabiá-3 atingiu 94% do score do GPT-4o. Em geração de texto jurídico, superou. Em tradução português-inglês, ficou atrás. Em resumo de documentos longos em português, empatou.

Tarefa	GPT-4o	Sabiá-3	Diferença
Compreensão PT-BR	100% (base)	94%	-6%
Geração jurídica PT	100% (base)	103%	+3%
Resumo de documentos	100% (base)	98%	-2%
Tradução PT→EN	100% (base)	87%	-13%
Classificação de sentimento	100% (base)	96%	-4%

A tradução é o ponto fraco — previsível, considerando que o GPT-4o treinou com ordens de magnitude mais dados em inglês. Mas para quem precisa de IA que opere em português, leia documentos brasileiros e produza texto que soe natural no idioma, a diferença é marginal.

O preço não é. O Sabiá-3 custa entre 40% e 60% menos por milhão de tokens processados, dependendo do plano. Para operações de alto volume — como redações automatizadas, atendimento ao cliente ou análise de documentos — a economia se acumula rápido.

Compatibilidade com OpenAI: a jogada estratégica

A Maritaca AI adotou uma decisão técnica que simplifica a adoção: a API do Sabiá-3 segue o padrão OpenAI. O endpoint aceita as mesmas chamadas, os mesmos parâmetros, o mesmo formato de resposta.

Na prática, isso significa que qualquer empresa que já usa o GPT-4o pode testar o Sabiá-3 sem refatorar código. Basta apontar o api_base para https://chat.maritaca.ai/api e trocar a chave. O SDK da OpenAI em Python funciona diretamente.

O Mirante News adotou exatamente essa abordagem. Para tarefas de alto volume em português — triagem de notícias, geração de resumos, classificação editorial — o Sabiá-3 roda via roteador de modelos. Quando a tarefa exige raciocínio complexo ou análise em múltiplos idiomas, o roteador escala para modelos maiores. O custo mensal caiu sem perda perceptível de qualidade nas saídas em português.

Rodrigo Nogueira e a tese da soberania linguística

Nogueira não é um empreendedor qualquer entrando na onda da IA. Ele publicou artigos seminais sobre modelos de busca neural enquanto trabalhava no Google. Voltou ao Brasil com uma tese: países que não produzem modelos de linguagem próprios ficam reféns de como o inglês estrutura o pensamento computacional.

A analogia dele é direta. O Brasil produz petróleo mas dependeu de refinarias estrangeiras por décadas. Exportava cru, importava gasolina. Com IA, o padrão se repete: o Brasil gera dados em português — tribunais, hospitais, escolas, redes sociais — mas processa esses dados em modelos que pensam em inglês.

O Sabiá-3 é a refinaria. Processa dados brasileiros com arquitetura otimizada para o idioma. Não precisa de camada de tradução. Não perde nuance.

A tese tem precedente histórico. A Coreia do Sul desenvolveu modelos de linguagem em coreano antes do boom do GPT. O Japão investiu em modelos treinados com dados em japonês.

A França financiou a Mistral AI com capital estatal para garantir soberania europeia em IA. Países que tratam a língua como infraestrutura estratégica investem em modelos próprios. Países que tratam como commodity compram de fora.

O Brasil gasta R$ 400 bilhões por ano em educação pública. Todo esse investimento produz conhecimento em português. Se o processamento desse conhecimento depende de modelos estrangeiros que pensam em inglês, o país subsidia a cadeia de valor de outro país. Nogueira viu essa assimetria de dentro do Google — e decidiu que o caminho era construir a alternativa, não reclamar da dependência.

O mercado brasileiro de IA: consumo voraz, produção mínima

Os números expõem a assimetria. O Brasil é o maior mercado de IA da América Latina. Empresas brasileiras gastaram estimados R$ 12 bilhões em serviços de IA no ano passado, segundo a Associação Brasileira das Empresas de Tecnologia da Informação e Comunicação. Desse total, mais de 90% foi para fornecedores estrangeiros: OpenAI, Google, Amazon, Microsoft.

Startups brasileiras de IA existem — o ecossistema cresceu. Mas a maioria atua como integradora: pega o GPT, embala numa interface, vende como produto. O modelo subjacente não é brasileiro. O dado de treinamento não prioriza o português. O lucro por token vai para San Francisco.

A Maritaca AI quebra esse ciclo. Não é a única — o Serpro desenvolve o LLM Gov, voltado para administração pública — mas é a que mais avançou em produzir um modelo generalista competitivo em português.

A balança comercial de serviços digitais do Brasil é deficitária há uma década. O país importa mais serviços de tecnologia do que exporta. A IA agrava esse déficit: cada chamada de API para a OpenAI é uma remessa em dólar. Cada modelo treinado fora é conhecimento que não fica aqui. A Maritaca AI representa a possibilidade de inverter pelo menos uma parte dessa equação.

Indicador	Valor estimado
Mercado de IA no Brasil (ano passado)	R$ 12 bilhões
Parcela para fornecedores estrangeiros	90%+
Parcela para empresas brasileiras	Menos de 10%
Custo do Sabiá-3 vs GPT-4o (por token)	40-60% menor
Startups de IA no Brasil	700+
Startups que desenvolvem modelos próprios	Menos de 10

Implicações para o ecossistema de tecnologia

Três desdobramentos merecem atenção.

O primeiro é econômico. Se o Sabiá-3 capturar uma fatia do mercado corporativo brasileiro, bilhões que hoje saem do país ficam aqui. Tokens processados em infraestrutura nacional geram emprego, imposto e receita em real — não em dólar.

O segundo é técnico. Um modelo nativo em português permite aplicações que modelos estrangeiros não fazem bem: análise automatizada de processos judiciais, interpretação de laudos médicos do SUS, classificação de denúncias no Ministério Público. Domínios onde o vocabulário técnico brasileiro não tem equivalente em inglês.

O terceiro é estratégico. O PL 2338/2023 — o marco regulatório da IA — exige transparência sobre modelos utilizados. Empresas que usarem modelos nacionais terão vantagem regulatória: rastreabilidade dos dados de treinamento, conformidade com a Lei Geral de Proteção de Dados, suporte técnico em português. Modelos estrangeiros operam como caixa-preta.

O ecossistema Maritaca: quem está por trás

A Maritaca AI não surgiu do nada. Rodrigo Nogueira construiu reputação acadêmica antes de fundar a empresa. Seus artigos sobre modelos neurais de busca — publicados enquanto pesquisava no Google — são referência na área. O paper "Passage Re-ranking with BERT" tem milhares de citações.

A equipe reúne pesquisadores brasileiros que passaram por Google, Meta e universidades americanas de ponta. Voltaram ao Brasil com uma aposta: o mercado de IA em português é grande o suficiente para sustentar uma empresa de infraestrutura.

A Maritaca AI levantou rodadas de investimento com fundos brasileiros e internacionais. Não divulga o montante exato, mas fontes do mercado estimam algo na faixa de dezenas de milhões de reais. O capital financia o custo mais pesado: aluguel de GPUs para treinamento. Cada ciclo de treinamento de um modelo grande consome milhares de horas de processamento em hardware especializado.

A empresa opera com modelo de negócio de API. Cobra por token consumido — a mesma lógica da OpenAI. A diferença está no preço e no foco.

Enquanto a OpenAI cobra o mesmo preço para qualquer idioma, a Maritaca otimiza o tokenizador para português. Isso significa que o mesmo texto em português gasta menos tokens no Sabiá-3 do que no GPT-4o. A economia é dupla: preço menor por token e menos tokens por texto.

Casos de uso que modelos estrangeiros não atendem bem

O vocabulário técnico brasileiro é um campo minado para modelos treinados em inglês. Três exemplos concretos.

No direito: "agravo de instrumento" não é "instrument aggravation". É um recurso processual específico do sistema jurídico brasileiro que não existe no common law americano. O GPT-4o traduz a definição. O Sabiá-3 sabe o que é, quando cabe e quais são os requisitos de admissibilidade — porque leu milhares de decisões sobre o tema.

Na saúde pública: o SUS tem protocolos clínicos com terminologia própria. "Acolhimento com classificação de risco" é um conceito operacional das Unidades de Pronto Atendimento. Não tem tradução funcional em inglês. Modelos treinados com dados do sistema de saúde americano não reconhecem o termo.

No agronegócio: "safrinha" — a segunda safra de milho plantada após a soja — é um conceito agrícola brasileiro. Modelos estrangeiros tratam como "small harvest" ou ignoram. Para uma consultoria agrícola que usa IA para projetar preços, essa distinção não é trivialidade linguística. É a diferença entre acertar e errar a projeção.

O que falta

O Sabiá-3 não resolve tudo. O modelo é menor que o GPT-4o em capacidade multimodal — não processa imagens nem áudio nativamente. O ecossistema de plugins e integrações é embrionário comparado ao da OpenAI. A documentação, embora sólida, não tem a comunidade de milhões que sustenta as ferramentas americanas.

E há o desafio da escala. Treinar modelos grandes exige GPU. GPU exige investimento. Investimento exige mercado. Se empresas brasileiras não adotarem o Sabiá-3, a Maritaca AI não terá receita para treinar o Sabiá-4. O ciclo virtuoso depende de demanda real.

A questão da confiança também pesa. Gestores de tecnologia em grandes empresas brasileiras conhecem OpenAI e Google. Confiaram o orçamento de IA nessas marcas. Trocar para uma startup brasileira com menos de três anos de mercado exige coragem — ou uma demonstração tão convincente que elimine a dúvida.

O mapa da IA em português

O Sabiá-3 não está sozinho. O Serpro — a estatal de tecnologia do governo federal — desenvolve o LLM Gov, focado em administração pública. A Universidade de São Paulo mantém projetos de processamento de linguagem natural em português. O Instituto de Pesquisas Tecnológicas de São Paulo investiu em modelos para análise de documentos técnicos.

Mas a Maritaca AI é a única que entregou um modelo generalista, com API comercial, compatível com o padrão OpenAI e com benchmarks publicados. O LLM Gov é restrito ao governo. Os projetos acadêmicos são pesquisa, não produto.

Se o ecossistema de IA em português vai existir de verdade, precisa de mais de um modelo competitivo. Precisa de diversidade. Precisa de competição que force melhoria. O Sabiá-3 abriu o caminho. Falta saber se outros vão seguir — ou se a Maritaca AI vai ficar sozinha num mercado que prefere pagar mais caro pelo modelo americano.

O que isso significa para o Brasil

O Brasil tem 215 milhões de falantes de português. É o quinto maior país do mundo em número de usuários de internet. Gera volume imenso de dados textuais em português todo dia — petições judiciais, prontuários médicos, contratos, postagens em redes sociais, matérias jornalísticas.

Processar esses dados com modelos que pensam em inglês é aceitar perda de informação na tradução. É pagar mais caro por resultado pior. É enviar riqueza linguística nacional para treinar modelos estrangeiros que depois vendem o produto de volta.

O Sabiá-3 é uma prova de conceito de que existe alternativa. Não substituirá o GPT-4o globalmente — nem pretende. Mas para o mercado brasileiro, onde português é a língua de trabalho e o vocabulário técnico local importa, a pergunta mudou.

A resposta depende de quem decide. O diretor de tecnologia que escolhe entre OpenAI e Maritaca AI não avalia só performance. Avalia risco de carreira. Escolher o GPT é seguro — todo mundo usa. Escolher o Sabiá-3 é apostar num produto brasileiro. Se funciona, é visionário. Se falha, é irresponsável. O viés do mercado favorece o incumbente estrangeiro.

Mas os números estão na mesa. O modelo existe. A API funciona. O preço é menor. A qualidade em português é equivalente. O código de integração tem duas linhas de diferença.

Não é mais "quando o Brasil vai produzir IA competitiva?". O Sabiá-3 já existe. A pergunta agora é se o mercado brasileiro vai comprar — ou se vai continuar pagando mais caro por um modelo que trata o português como língua secundária.

O que torna o Sabiá-3 diferente

O Sabiá-3 foi treinado com esses dados na origem. Não aprendeu português como tradução do inglês — aprendeu português como português.

Os números que sustentam a comparação

Tarefa	GPT-4o	Sabiá-3	Diferença
Compreensão PT-BR	100% (base)	94%	-6%
Geração jurídica PT	100% (base)	103%	+3%
Resumo de documentos	100% (base)	98%	-2%
Tradução PT→EN	100% (base)	87%	-13%
Classificação de sentimento	100% (base)	96%	-4%

Compatibilidade com OpenAI: a jogada estratégica

Rodrigo Nogueira e a tese da soberania linguística

O Sabiá-3 é a refinaria. Processa dados brasileiros com arquitetura otimizada para o idioma. Não precisa de camada de tradução. Não perde nuance.

A tese tem precedente histórico. A Coreia do Sul desenvolveu modelos de linguagem em coreano antes do boom do GPT. O Japão investiu em modelos treinados com dados em japonês.

O mercado brasileiro de IA: consumo voraz, produção mínima

Indicador	Valor estimado
Mercado de IA no Brasil (ano passado)	R$ 12 bilhões
Parcela para fornecedores estrangeiros	90%+
Parcela para empresas brasileiras	Menos de 10%
Custo do Sabiá-3 vs GPT-4o (por token)	40-60% menor
Startups de IA no Brasil	700+
Startups que desenvolvem modelos próprios	Menos de 10

Implicações para o ecossistema de tecnologia

Três desdobramentos merecem atenção.

O ecossistema Maritaca: quem está por trás

A empresa opera com modelo de negócio de API. Cobra por token consumido — a mesma lógica da OpenAI. A diferença está no preço e no foco.

Casos de uso que modelos estrangeiros não atendem bem

O vocabulário técnico brasileiro é um campo minado para modelos treinados em inglês. Três exemplos concretos.

O que falta

O mapa da IA em português

O que isso significa para o Brasil

Mas os números estão na mesa. O modelo existe. A API funciona. O preço é menor. A qualidade em português é equivalente. O código de integração tem duas linhas de diferença.

O que torna o Sabiá-3 diferente

Os números que sustentam a comparação

Compatibilidade com OpenAI: a jogada estratégica

Rodrigo Nogueira e a tese da soberania linguística

O mercado brasileiro de IA: consumo voraz, produção mínima

Implicações para o ecossistema de tecnologia

O ecossistema Maritaca: quem está por trás

Casos de uso que modelos estrangeiros não atendem bem

O que falta

O mapa da IA em português

O que isso significa para o Brasil

Perguntas Frequentes

Receba o Mirante no seu email

Mais em Tecnologia

Embargo não matou o modelo chinês: mudou o jeito de escalar

Latência virou produto: OpenAI, Gemini e SpecKV atacam o gargalo real dos agentes

Como treinar um modelo pequeno para obedecer à sua regra sem viver de prompt

Leia tambem

Brasília é a 3ª cidade mais inteligente do Brasil: os dados por trás do ranking

Karpathy deixou um agente otimizando seu LLM por 2 dias — encontrou 20 melhorias que transferiram para modelos maiores

O data center que nasceu ao lado da UnB vai processar 30% da IA pública do Brasil

O que torna o Sabiá-3 diferente

Os números que sustentam a comparação

Compatibilidade com OpenAI: a jogada estratégica

Rodrigo Nogueira e a tese da soberania linguística

O mercado brasileiro de IA: consumo voraz, produção mínima

Implicações para o ecossistema de tecnologia

O ecossistema Maritaca: quem está por trás

Casos de uso que modelos estrangeiros não atendem bem

O que falta

O mapa da IA em português

O que isso significa para o Brasil

Perguntas Frequentes

Receba o Mirante no seu email

Mais em Tecnologia

Embargo não matou o modelo chinês: mudou o jeito de escalar

Latência virou produto: OpenAI, Gemini e SpecKV atacam o gargalo real dos agentes

Como treinar um modelo pequeno para obedecer à sua regra sem viver de prompt

Leia tambem

Brasília é a 3ª cidade mais inteligente do Brasil: os dados por trás do ranking

Karpathy deixou um agente otimizando seu LLM por 2 dias — encontrou 20 melhorias que transferiram para modelos maiores

O data center que nasceu ao lado da UnB vai processar 30% da IA pública do Brasil