
Sabiá-3: modelo de IA brasileiro treinado com dados nacionais pela Maritaca AI
Sabiá-3: o modelo brasileiro que entende português como nenhum outro — e custa uma fração do GPT
O Brasil tem um modelo de linguagem próprio que rivaliza com o GPT-4o em português. O Sabiá-3, da Maritaca AI, foi treinado com corpus jurídico, dados do IBGE e mídia brasileira — e custa uma fração do concorrente americano.
O Brasil gasta bilhões de dólares por ano consumindo inteligência artificial estrangeira. Compra API da OpenAI, aluga GPU da Amazon, paga licença do Google. A conta sai em dólar. O conhecimento fica em inglês. E o país continua como cliente — nunca como produtor.
A Maritaca AI decidiu mudar esse roteiro. Fundada por Rodrigo Nogueira, ex-pesquisador do Google Brain, a startup lançou o Sabiá-3: um modelo de linguagem treinado especificamente com dados brasileiros. Corpus jurídico do STF e STJ. Dados demográficos do IBGE. Acervos de mídia nacional. Gírias, regionalismos, a estrutura sintática que só o português brasileiro tem.
O resultado: 94% da performance do GPT-4o em benchmarks de língua portuguesa. Preço por token significativamente inferior. API compatível com o padrão OpenAI — qualquer sistema que roda GPT pode trocar para o Sabiá-3 mudando duas linhas de código.
O que torna o Sabiá-3 diferente
Modelos de linguagem treinados em inglês tratam o português como idioma secundário. O GPT-4o, o Claude e o Gemini funcionam em português porque o idioma aparece nos dados de treinamento — mas nunca como prioridade. Isso gera problemas sutis e persistentes.
Concordância verbal com sujeito posposto. Regência de verbos pronominais. A diferença entre "a gente vai" e "nós iremos" em contexto formal. Termos jurídicos que não têm tradução direta do inglês: "agravo de instrumento", "mandado de segurança", "tutela de urgência".
O Sabiá-3 foi treinado com esses dados na origem. Não aprendeu português como tradução do inglês — aprendeu português como português.
Rodrigo Nogueira explicou a abordagem em entrevista à Agência Brasil: o modelo ingeriu decisões judiciais de tribunais superiores, textos legislativos do Congresso, relatórios técnicos de órgãos federais e produções jornalísticas de veículos nacionais. O treinamento priorizou domínios onde modelos estrangeiros apresentam mais falhas em português: direito, administração pública, saúde e agronegócio.
Os números que sustentam a comparação
A Maritaca AI publicou benchmarks comparativos. Em tarefas de compreensão de texto em português, o Sabiá-3 atingiu 94% do score do GPT-4o. Em geração de texto jurídico, superou. Em tradução português-inglês, ficou atrás. Em resumo de documentos longos em português, empatou.
| Tarefa | GPT-4o | Sabiá-3 | Diferença | |--------|--------|---------|-----------| | Compreensão PT-BR | 100% (base) | 94% | -6% | | Geração jurídica PT | 100% (base) | 103% | +3% | | Resumo de documentos | 100% (base) | 98% | -2% | | Tradução PT→EN | 100% (base) | 87% | -13% | | Classificação de sentimento | 100% (base) | 96% | -4% |
A tradução é o ponto fraco — previsível, considerando que o GPT-4o treinou com ordens de magnitude mais dados em inglês. Mas para quem precisa de IA que opere em português, leia documentos brasileiros e produza texto que soe natural no idioma, a diferença é marginal.
O preço não é. O Sabiá-3 custa entre 40% e 60% menos por milhão de tokens processados, dependendo do plano. Para operações de alto volume — como redações automatizadas, atendimento ao cliente ou análise de documentos — a economia se acumula rápido.
Compatibilidade com OpenAI: a jogada estratégica
A Maritaca AI adotou uma decisão técnica que simplifica a adoção: a API do Sabiá-3 segue o padrão OpenAI. O endpoint aceita as mesmas chamadas, os mesmos parâmetros, o mesmo formato de resposta.
Na prática, isso significa que qualquer empresa que já usa o GPT-4o pode testar o Sabiá-3 sem refatorar código. Basta apontar o api_base para https://chat.maritaca.ai/api e trocar a chave. O SDK da OpenAI em Python funciona diretamente.
O Mirante News adotou exatamente essa abordagem. Para tarefas de alto volume em português — triagem de notícias, geração de resumos, classificação editorial — o Sabiá-3 roda via roteador de modelos. Quando a tarefa exige raciocínio complexo ou análise em múltiplos idiomas, o roteador escala para modelos maiores. O custo mensal caiu sem perda perceptível de qualidade nas saídas em português.
Rodrigo Nogueira e a tese da soberania linguística
Nogueira não é um empreendedor qualquer entrando na onda da IA. Ele publicou artigos seminais sobre modelos de busca neural enquanto trabalhava no Google. Voltou ao Brasil com uma tese: países que não produzem modelos de linguagem próprios ficam reféns de como o inglês estrutura o pensamento computacional.
A analogia dele é direta. O Brasil produz petróleo mas dependeu de refinarias estrangeiras por décadas. Exportava cru, importava gasolina. Com IA, o padrão se repete: o Brasil gera dados em português — tribunais, hospitais, escolas, redes sociais — mas processa esses dados em modelos que pensam em inglês.
O Sabiá-3 é a refinaria. Processa dados brasileiros com arquitetura otimizada para o idioma. Não precisa de camada de tradução. Não perde nuance.
A tese tem precedente histórico. A Coreia do Sul desenvolveu modelos de linguagem em coreano antes do boom do GPT. O Japão investiu em modelos treinados com dados em japonês. A França financiou a Mistral AI com capital estatal para garantir soberania europeia em IA. Países que tratam a língua como infraestrutura estratégica investem em modelos próprios. Países que tratam como commodity compram de fora.
O Brasil gasta R$ 400 bilhões por ano em educação pública. Todo esse investimento produz conhecimento em português. Se o processamento desse conhecimento depende de modelos estrangeiros que pensam em inglês, o país subsidia a cadeia de valor de outro país. Nogueira viu essa assimetria de dentro do Google — e decidiu que o caminho era construir a alternativa, não reclamar da dependência.
O mercado brasileiro de IA: consumo voraz, produção mínima
Os números expõem a assimetria. O Brasil é o maior mercado de IA da América Latina. Empresas brasileiras gastaram estimados R$ 12 bilhões em serviços de IA no ano passado, segundo a Associação Brasileira das Empresas de Tecnologia da Informação e Comunicação. Desse total, mais de 90% foi para fornecedores estrangeiros: OpenAI, Google, Amazon, Microsoft.
Startups brasileiras de IA existem — o ecossistema cresceu. Mas a maioria atua como integradora: pega o GPT, embala numa interface, vende como produto. O modelo subjacente não é brasileiro. O dado de treinamento não prioriza o português. O lucro por token vai para San Francisco.
A Maritaca AI quebra esse ciclo. Não é a única — o Serpro desenvolve o LLM Gov, voltado para administração pública — mas é a que mais avançou em produzir um modelo generalista competitivo em português.
A balança comercial de serviços digitais do Brasil é deficitária há uma década. O país importa mais serviços de tecnologia do que exporta. A IA agrava esse déficit: cada chamada de API para a OpenAI é uma remessa em dólar. Cada modelo treinado fora é conhecimento que não fica aqui. A Maritaca AI representa a possibilidade de inverter pelo menos uma parte dessa equação.
| Indicador | Valor estimado | |-----------|---------------| | Mercado de IA no Brasil (ano passado) | R$ 12 bilhões | | Parcela para fornecedores estrangeiros | 90%+ | | Parcela para empresas brasileiras | < 10% | | Custo do Sabiá-3 vs GPT-4o (por token) | 40-60% menor | | Startups de IA no Brasil | 700+ | | Startups que desenvolvem modelos próprios | < 10 |
Implicações para o ecossistema de tecnologia
Três desdobramentos merecem atenção.
O primeiro é econômico. Se o Sabiá-3 capturar uma fatia do mercado corporativo brasileiro, bilhões que hoje saem do país ficam aqui. Tokens processados em infraestrutura nacional geram emprego, imposto e receita em real — não em dólar.
O segundo é técnico. Um modelo nativo em português permite aplicações que modelos estrangeiros não fazem bem: análise automatizada de processos judiciais, interpretação de laudos médicos do SUS, classificação de denúncias no Ministério Público. Domínios onde o vocabulário técnico brasileiro não tem equivalente em inglês.
O terceiro é estratégico. O PL 2338/2023 — o marco regulatório da IA — exige transparência sobre modelos utilizados. Empresas que usarem modelos nacionais terão vantagem regulatória: rastreabilidade dos dados de treinamento, conformidade com a Lei Geral de Proteção de Dados, suporte técnico em português. Modelos estrangeiros operam como caixa-preta.
O ecossistema Maritaca: quem está por trás
A Maritaca AI não surgiu do nada. Rodrigo Nogueira construiu reputação acadêmica antes de fundar a empresa. Seus artigos sobre modelos neurais de busca — publicados enquanto pesquisava no Google — são referência na área. O paper "Passage Re-ranking with BERT" tem milhares de citações.
A equipe reúne pesquisadores brasileiros que passaram por Google, Meta e universidades americanas de ponta. Voltaram ao Brasil com uma aposta: o mercado de IA em português é grande o suficiente para sustentar uma empresa de infraestrutura.
A Maritaca AI levantou rodadas de investimento com fundos brasileiros e internacionais. Não divulga o montante exato, mas fontes do mercado estimam algo na faixa de dezenas de milhões de reais. O capital financia o custo mais pesado: aluguel de GPUs para treinamento. Cada ciclo de treinamento de um modelo grande consome milhares de horas de processamento em hardware especializado.
A empresa opera com modelo de negócio de API. Cobra por token consumido — a mesma lógica da OpenAI. A diferença está no preço e no foco. Enquanto a OpenAI cobra o mesmo preço para qualquer idioma, a Maritaca otimiza o tokenizador para português. Isso significa que o mesmo texto em português gasta menos tokens no Sabiá-3 do que no GPT-4o. A economia é dupla: preço menor por token e menos tokens por texto.
Casos de uso que modelos estrangeiros não atendem bem
O vocabulário técnico brasileiro é um campo minado para modelos treinados em inglês. Três exemplos concretos.
No direito: "agravo de instrumento" não é "instrument aggravation". É um recurso processual específico do sistema jurídico brasileiro que não existe no common law americano. O GPT-4o traduz a definição. O Sabiá-3 sabe o que é, quando cabe e quais são os requisitos de admissibilidade — porque leu milhares de decisões sobre o tema.
Na saúde pública: o SUS tem protocolos clínicos com terminologia própria. "Acolhimento com classificação de risco" é um conceito operacional das Unidades de Pronto Atendimento. Não tem tradução funcional em inglês. Modelos treinados com dados do sistema de saúde americano não reconhecem o termo.
No agronegócio: "safrinha" — a segunda safra de milho plantada após a soja — é um conceito agrícola brasileiro. Modelos estrangeiros tratam como "small harvest" ou ignoram. Para uma consultoria agrícola que usa IA para projetar preços, essa distinção não é trivialidade linguística. É a diferença entre acertar e errar a projeção.
O que falta
O Sabiá-3 não resolve tudo. O modelo é menor que o GPT-4o em capacidade multimodal — não processa imagens nem áudio nativamente. O ecossistema de plugins e integrações é embrionário comparado ao da OpenAI. A documentação, embora sólida, não tem a comunidade de milhões que sustenta as ferramentas americanas.
E há o desafio da escala. Treinar modelos grandes exige GPU. GPU exige investimento. Investimento exige mercado. Se empresas brasileiras não adotarem o Sabiá-3, a Maritaca AI não terá receita para treinar o Sabiá-4. O ciclo virtuoso depende de demanda real.
A questão da confiança também pesa. Gestores de tecnologia em grandes empresas brasileiras conhecem OpenAI e Google. Confiaram o orçamento de IA nessas marcas. Trocar para uma startup brasileira com menos de três anos de mercado exige coragem — ou uma demonstração tão convincente que elimine a dúvida.
O mapa da IA em português
O Sabiá-3 não está sozinho. O Serpro — a estatal de tecnologia do governo federal — desenvolve o LLM Gov, focado em administração pública. A Universidade de São Paulo mantém projetos de processamento de linguagem natural em português. O Instituto de Pesquisas Tecnológicas de São Paulo investiu em modelos para análise de documentos técnicos.
Mas a Maritaca AI é a única que entregou um modelo generalista, com API comercial, compatível com o padrão OpenAI e com benchmarks publicados. O LLM Gov é restrito ao governo. Os projetos acadêmicos são pesquisa, não produto.
Se o ecossistema de IA em português vai existir de verdade, precisa de mais de um modelo competitivo. Precisa de diversidade. Precisa de competição que force melhoria. O Sabiá-3 abriu o caminho. Falta saber se outros vão seguir — ou se a Maritaca AI vai ficar sozinha num mercado que prefere pagar mais caro pelo modelo americano.
O que isso significa para o Brasil
O Brasil tem 215 milhões de falantes de português. É o quinto maior país do mundo em número de usuários de internet. Gera volume imenso de dados textuais em português todo dia — petições judiciais, prontuários médicos, contratos, postagens em redes sociais, matérias jornalísticas.
Processar esses dados com modelos que pensam em inglês é aceitar perda de informação na tradução. É pagar mais caro por resultado pior. É enviar riqueza linguística nacional para treinar modelos estrangeiros que depois vendem o produto de volta.
O Sabiá-3 é uma prova de conceito de que existe alternativa. Não substituirá o GPT-4o globalmente — nem pretende. Mas para o mercado brasileiro, onde português é a língua de trabalho e o vocabulário técnico local importa, a pergunta mudou.
A resposta depende de quem decide. O diretor de tecnologia que escolhe entre OpenAI e Maritaca AI não avalia só performance. Avalia risco de carreira. Escolher o GPT é seguro — todo mundo usa. Escolher o Sabiá-3 é apostar num produto brasileiro. Se funciona, é visionário. Se falha, é irresponsável. O viés do mercado favorece o incumbente estrangeiro.
Mas os números estão na mesa. O modelo existe. A API funciona. O preço é menor. A qualidade em português é equivalente. O código de integração tem duas linhas de diferença.
Não é mais "quando o Brasil vai produzir IA competitiva?". O Sabiá-3 já existe. A pergunta agora é se o mercado brasileiro vai comprar — ou se vai continuar pagando mais caro por um modelo que trata o português como língua secundária.
Receba o Mirante no seu email
As principais notícias do dia, curadas por inteligência artificial, direto na sua caixa de entrada.