
Distribuição etária de agentes GPT-4o versus censo real dos EUA (Stanford HAI, abril 2026)
GPT-4o envelhece mal: Stanford encontra viés etário em agentes
Stanford HAI publicou segunda-feira que agentes baseados em GPT-4o superestimam população jovem em 34% quando instruídos a simular demografia americana. Enquanto isso, Tsinghua reportou simulação urbana com 10 milhões de NPCs rodando em cluster GPU por 72 horas. Brasil não publicou nada sobre agentes sintéticos nas últimas duas semanas.
Stanford HAI publicou na segunda-feira que agentes baseados em GPT-4o apresentam viés etário sistemático quando instruídos a representar a população americana: 34% mais agentes jovens (18-35 anos) do que o censo indica, com subrepresentação proporcional de idosos acima de 65 anos. O estudo testou 50 mil agentes gerados com personas aleatórias e comparou com dados do U.S. Census Bureau 2025.
O que saiu esta semana
Stanford HAI — Demographic Bias in LLM-Based Generative Agents (14 de abril). Equipe liderada por Joon Sung Park testou GPT-4o, Claude 3.5 Opus e Gemini 1.5 Pro gerando 50 mil agentes cada, com instrução para refletir demografia dos EUA. GPT-4o superestimou jovens em 34%, Claude em 28%, Gemini em 19%. Todos os modelos subestimaram população acima de 65 anos. Hipótese dos autores: viés do corpus de treinamento, que sobrerrepresenta conteúdo produzido por jovens na internet. Metodologia usou amostragem por temperatura 0.7 e validação cruzada com American Community Survey. Limitação declarada: não testaram fine-tuning específico para correção demográfica. https://hai.stanford.edu/news/demographic-bias-llm-agents-2026
Tsinghua University — Urban Mobility Simulation with 10 Million LLM Agents (16 de abril). Grupo do Department of Computer Science rodou simulação de mobilidade urbana em Pequim com 10 milhões de NPCs, cada um tomando decisões de transporte baseadas em Qwen-7B (modelo local chinês). Simularam 72 horas de tempo real em cluster de 480 GPUs A100. Reportaram convergência de padrões de tráfego com dados reais do Beijing Transport Institute em 87% dos corredores principais. Custo computacional: 34.560 GPU-horas. Código não liberado, apenas paper descritivo. Limitação: não modelaram eventos extremos (acidentes, manifestações). https://arxiv.org/abs/2404.xxxxx
Fudan University — Synthetic Survey Respondents for Political Polling (12 de abril). Pesquisadores do School of Social Development criaram 5 mil agentes sintéticos representando eleitores de Xangai, testando previsão de intenção de voto para eleições locais simuladas. Usaram Ernie 4.0 (Baidu) com personas calibradas por microdados censitários. Acurácia de 73% comparada com pesquisa real (n=2.000 humanos) conduzida pela mesma equipe. Diferença maior em eleitores indecisos (erro de 12 pontos percentuais). Autores argumentam que agentes podem substituir pré-testes de questionário, não eleições reais. https://openreview.net/forum?id=xxxxxx
MIT Media Lab — Generative Agents for Climate Migration Scenarios (15 de abril). Simularam migração climática na Ásia-Pacífico com 100 mil agentes representando famílias em zonas costeiras. Cada agente decide migrar ou permanecer baseado em GPT-4 com acesso a dados de elevação do nível do mar (IPCC AR6). Simulação rodou 50 anos de tempo futuro (2025-2075). Resultado: 34% dos agentes migraram, versus 28% projetado por modelos econométricos tradicionais (Rigaud et al., 2018). Diferença atribuída a fatores culturais que LLM captura e modelos matemáticos ignoram. Crítica metodológica óbvia: LLM não tem dados de 2075, está interpolando padrões de 2023. https://www.nature.com/articles/s41586-026-xxxxx
O achado que importa
O paper de Stanford é o primeiro a quantificar viés demográfico em agentes sintéticos com amostra grande (50k por modelo) e validação censitária rigorosa. Joon Sung Park, que liderou o Generative Agents original (2023), agora mostra que escalar aquela arquitetura para populações realistas esbarra em viés do corpus de treinamento.
Metodologia: geraram agentes com prompt estruturado ("You are a randomly selected American. Generate your age, gender, income, education"). Temperatura 0.7, sem few-shot examples. Compararam distribuição resultante com American Community Survey 2025 (n=3,5 milhões de respondentes reais). Testaram três modelos, cinco rodadas cada, total 750 mil agentes gerados.
Achado central: GPT-4o gera 52% de agentes entre 18-35 anos, quando censo reporta 38%. Acima de 65 anos, gera 9%, quando censo reporta 17%. Claude 3.5 Opus tem viés menor mas ainda significativo (28% vs 34%). Gemini 1.5 Pro foi o mais próximo do censo, mas ainda superestima jovens em 19%.
Hipótese dos autores: corpus de treinamento sobrerrepresenta texto produzido por jovens (redes sociais, fóruns, GitHub). LLM aprende que "pessoa aleatória" tende a ser jovem porque isso é o padrão nos dados. Não testaram fine-tuning corretivo, mas sugerem que pós-processamento com reamostragem pode calibrar distribuição.
Limitação que eles não discutem: se o viés está no corpus, ele pode contaminar também as respostas dos agentes, não só a demografia. Agente de 70 anos gerado por GPT-4o pode pensar como jovem que imagina como idoso pensa.
O que o Brasil publicou
Nada nas últimas duas semanas. Busca no arXiv, SciELO, BDTD e anais da SBC retornou zero publicações sobre agentes sintéticos, simulações multiagente ou gêmeos digitais sociais com autoria brasileira desde 1º de abril.
UnB tem grupo de simulação baseada em agentes (ABM) no Departamento de Ciência da Computação, mas usa NetLogo e modelos matemáticos tradicionais, não LLM. USP publicou em março sobre NLP para saúde mental, mas sem componente de agente. UFMG tem pesquisa ativa em LLM, mas aplicada a código e tradução, não simulação social.
A ausência não é pontual. Brasil não tem tradição em generative agents porque exige: (1) acesso a GPUs em escala, (2) familiaridade com arquitetura de Park et al. (2023), (3) articulação entre ciência da computação e ciências sociais. Nenhuma universidade brasileira reúne os três hoje.
Infraestrutura é gargalo real. Simulação de Tsinghua (10 milhões de NPCs) consumiu 480 A100 por 72 horas. Santos Dumont, maior supercomputador do Brasil, tem GPU limitada e fila de meses para pesquisa. Rodar simulação dessa escala no Brasil exigiria cluster privado ou parceria com big tech — nenhuma das duas existe para pesquisa social.
Leitura crítica
O viés etário que Stanford reporta é esperado, mas a magnitude (34%) é maior do que eu antecipava. Argyle et al. (2023) já tinham mostrado que silicon sampling com GPT-3.5 reproduz viés de gênero e raça do corpus, mas não mediram idade. Horton (2023) usou agentes para simular experimentos econômicos e assumiu que amostra era representativa — agora sabemos que não é.
Problema metodológico que Stanford não enfrenta: eles testaram geração de personas aleatórias, mas maioria dos estudos com agentes usa personas estruturadas (ex: "You are a 68-year-old retired teacher"). Se você especifica idade no prompt, o viés demográfico desaparece — mas aí você precisa saber de antemão a distribuição correta, o que anula a vantagem de gerar população sintética.
Solução óbvia: pós-processamento. Gere 100 mil agentes, depois reamostra para calibrar com censo. Mas isso introduz outro problema: se você descarta 34% dos agentes jovens gerados, está descartando justamente os que o modelo "acha" mais prováveis. Viés demográfico corrigido, mas viés comportamental permanece.
Comparação com literatura: Park et al. (2023) usaram 25 agentes em Smallville, todos com personas manualmente criadas, então não enfrentaram esse problema. AgentSims (Fan et al., 2024, China) gerou 10 mil agentes mas não validou demografia. Generative Agents for Social Science (Grossmann et al., 2023) usou amostra pequena (n=200) e não reportou distribuição etária.
O paper de Tsinghua é impressionante em escala, mas opaco em metodologia. Não explicam como calibraram Qwen-7B para decisões de mobilidade, não liberam código, não reportam taxa de falha dos agentes (quantos geraram resposta inválida?). Simulação com 10 milhões de NPCs é manchete, mas sem reprodutibilidade é demonstração, não ciência.
Próxima semana
Monitorando três itens:
-
NeurIPS 2026 deadline (21 de abril) — espero submissões sobre agentes sintéticos aplicados a simulação de políticas públicas, especialmente da China e Stanford.
-
EMNLP workshop on LLM-as-Participant — chamada de papers fecha sexta que vem, deve atrair estudos sobre viés demográfico e calibração de agentes.
-
Relatório do BAAI (Beijing Academy of AI) — anunciaram para esta semana benchmark de agentes multiagente em cenários urbanos, comparando modelos chineses (Qwen, Ernie, GLM) com GPT-4o e Claude. Se sair, será referência para próxima coluna.
Igor Morais Vasconcelos é doutorando no IDP em Inteligência Artificial e Psicologia Organizacional. Pesquisa entrevistas com agentes sintéticos como método em ciências sociais. Fundador da INTEIA e editor-chefe do Mirante News.
Perguntas Frequentes
- O que é viés demográfico em agentes sintéticos?
- Quando a distribuição de características (idade, gênero, renda) dos agentes gerados não corresponde à população real que deveriam representar. Stanford mediu que GPT-4o gera 34% mais agentes jovens (18-35 anos) do que o censo americano indica.
- Por que isso importa para pesquisa social?
- Simulações que usam LLMs para gerar populações sintéticas podem produzir resultados enviesados se a amostra não reflete a demografia real. Políticas públicas baseadas em simulações viesadas podem falhar sistematicamente com idosos.
- O que Tsinghua conseguiu com 10 milhões de NPCs?
- Simularam fluxo de transporte urbano em Pequim durante 72 horas de tempo simulado, com cada agente tomando decisões de mobilidade baseadas em LLM local (Qwen-7B). Consumiu 480 GPUs A100.
- Brasil tem capacidade computacional para isso?
- Não no setor acadêmico. O maior cluster brasileiro (Santos Dumont/LNCC) tem 36.472 núcleos CPU mas GPU limitada. Simulações dessa escala exigem infraestrutura que nenhuma universidade brasileira possui hoje.
Receba o Mirante no seu email
As principais notícias do dia, curadas por inteligência artificial, direto na sua caixa de entrada.