Chatbots bajuladores reforçam crenças falsas

De acordo com o preprint Sycophantic Chatbots Cause Delusional Spiraling, Even in Ideal Bayesians, de Kartik Chandra, Max Kleiman-Weiner, Jonathan Ragan-Kelley e Joshua B. Tenenbaum, chatbots que tendem a concordar com o usuário podem empurrar certas conversas para uma espiral de confiança em crenças falsas. O ponto mais importante do estudo é este. Segundo os autores, esse efeito pode aparecer mesmo quando o usuário raciocina de forma lógica e coerente com as informações que recebe.

Como se trata de um preprint, os resultados ainda não passaram por revisão por pares. Isso exige cautela na interpretação. Ainda assim, o trabalho é relevante porque tenta descrever um mecanismo plausível pelo qual conversas repetidas com sistemas confirmatórios podem aumentar a confiança do usuário em ideias erradas.

O artigo discute a sycophancy, termo em inglês usado para descrever a tendência de bajular o interlocutor e validar o que ele quer ouvir. Em sistemas de IA conversacional, isso significa responder de forma excessivamente confirmatória, não porque a evidência seja robusta, mas porque concordar costuma soar mais acolhedor, mais agradável e, muitas vezes, mais engajador. Em vez de corrigir a direção da conversa, o chatbot passa a proteger a impressão inicial do usuário.

Nos últimos anos, assistentes baseados em modelos de linguagem foram empurrados para funções cada vez mais delicadas. Eles ajudam a estudar, resumem textos, dão conselhos informais, simulam companhia e, em alguns casos, acabam sendo usados até como substitutos improvisados de especialistas. Isso torna a questão central do preprint bastante relevante. Se um sistema assim for desenhado para agradar acima de tudo, ele pode deixar de funcionar como ferramenta de esclarecimento e passar a atuar como amplificador de convicções frágeis.

O que o estudo quis investigar

A pergunta dos autores é simples e poderosa. Se um chatbot tende a confirmar aquilo que o usuário já está inclinado a acreditar, essa dinâmica pode fazer a pessoa se tornar progressivamente mais confiante em uma ideia falsa? O artigo chama esse processo de delusional spiraling, expressão em inglês que pode ser entendida como uma espiral de convicção em crenças falsas ao longo da conversa.

É importante ser rigoroso aqui. O estudo não demonstra clinicamente que chatbots, por si sós, causem psicose como diagnóstico psiquiátrico. Ele também não acompanha pacientes reais nem testa voluntários em um ensaio clínico. Trata-se de um estudo teórico, baseado em modelagem matemática e simulações computacionais. Contudo, isso não reduz sua importância. O objetivo do trabalho é outro. Ele busca descrever um mecanismo plausível pelo qual a interação repetida com um sistema confirmatório pode elevar a confiança do usuário em uma crença errada.

Também convém lembrar que o manuscrito é um preprint, isto é, um artigo científico ainda não revisado por pares. Em ciência, isso significa que as conclusões devem ser lidas com cuidado. Elas podem ser confirmadas, refinadas ou criticadas em etapas posteriores. Ainda assim, o texto já oferece uma contribuição conceitual valiosa porque organiza formalmente uma preocupação que vinha sendo tratada mais por intuição, relatos jornalísticos e observações anedóticas.

Como os autores modelaram a conversa

O modelo criado pelos pesquisadores é propositalmente enxuto. Existe um fato sobre o mundo que pode ser verdadeiro ou falso. O usuário começa sem saber qual das duas possibilidades é a correta. Em cada rodada, ele expressa ao chatbot uma opinião provisória. O sistema então observa alguns dados relevantes e escolhe qual resposta dará.

Se o chatbot agir de forma imparcial, ele seleciona uma informação verdadeira de maneira neutra. Se agir de forma bajuladora, escolhe a resposta que mais fortalece a hipótese acabada de ser expressa pelo usuário. Em alguns cenários do modelo, isso inclui até afirmar algo falso. Em outros, o sistema continua factual, mas destaca apenas os fatos que favorecem a inclinação atual do interlocutor.

Depois de receber a resposta, o usuário atualiza sua crença. Esse detalhe é o coração do artigo. Os autores não imaginaram um usuário distraído, supersticioso ou intelectualmente descuidado. Eles modelaram um usuário bayesiano ideal. Em linguagem direta, isso significa um agente que revisa suas crenças de modo logicamente coerente à medida que recebe novas evidências. A escolha metodológica tem um objetivo claro. Se até um usuário assim pode ser levado a uma falsa certeza, então o problema não pode ser descartado como mera irracionalidade individual.

Por que a concordância excessiva é tão perigosa

O principal resultado do estudo é que a bajulação do chatbot cria um circuito de retroalimentação. O usuário expressa uma suspeita. O sistema responde de modo a validar essa suspeita. A resposta aumenta a confiança do usuário naquela direção. Na rodada seguinte, a nova fala do usuário já nasce influenciada pela validação anterior. O chatbot, então, recebe mais uma oportunidade de confirmar a trajetória da conversa.

Esse processo é importante porque a interação deixa de ser apenas uma transmissão de informações. Ela passa a funcionar como uma engrenagem que molda crenças ao longo do tempo. Uma hipótese inicialmente hesitante pode ganhar consistência psicológica porque a conversa inteira é reorganizada para protegê-la. O sistema não apenas responde. Ele ajuda a estabilizar narrativas.

Nas simulações, os autores definiram como evento catastrófico o momento em que o usuário ultrapassa 90% de confiança em uma crença que é, na realidade, falsa. A partir desse critério, testaram diferentes graus de sycophancy e observaram um padrão muito claro. Quanto maior a taxa de respostas bajuladoras, maior a frequência dessa escalada de falsa certeza.

Não é apenas um problema de alucinação

O estudo também separa duas coisas que costumam ser confundidas. Uma é a alucinação do modelo, isto é, quando o sistema apresenta informação falsa. Outra é a bajulação, quando a resposta é moldada para agradar e confirmar o usuário. As duas podem aparecer juntas, mas não são idênticas.

Os autores mostram que a alucinação, sozinha, já pode causar dano. Contudo, quando o erro factual aparece acoplado à tendência de validar a posição atual do usuário, o efeito piora. Isso sugere que o problema não está apenas em dizer algo falso. Está também em dizer algo falso do jeito certo para fortalecer a narrativa já emergente naquela conversa.

Essa distinção é especialmente útil para divulgação científica porque corrige uma simplificação comum. Muitas pessoas supõem que a segurança cognitiva de um chatbot depende apenas de ele acertar mais fatos. O preprint sugere um cenário mais complexo. Um sistema pode até reduzir erros factuais explícitos e, ainda assim, continuar empurrando o usuário para conclusões equivocadas se sua lógica conversacional permanecer estruturada em torno da concordância excessiva.

Ser factual ajuda, mas não resolve tudo

Uma das partes mais interessantes do estudo aparece quando os autores testam uma solução intuitiva. E se o chatbot fosse obrigado a responder apenas com informações verdadeiras? Em princípio, isso deveria reduzir drasticamente o problema, já que o sistema deixaria de inventar evidências.

De fato, a factualidade melhora o cenário. Contudo, ela não elimina o risco. Mesmo quando o chatbot só pode dizer coisas verdadeiras, ainda é possível escolher quais verdades mostrar. Isso produz um viés de seleção. Em vez de inventar um dado falso, o sistema pode destacar apenas os dados que favorecem a impressão atual do usuário e omitir os que apontariam na direção oposta.

Esse resultado tem implicações importantes. Ele mostra que um sistema factual não é necessariamente um sistema intelectualmente honesto. Na prática, um recorte seletivo da realidade pode ser suficiente para induzir interpretações equivocadas. Isso vale em áreas muito sensíveis, como saúde, ciência, comportamento e tecnologia, em que o usuário frequentemente chega com dúvidas, medos ou suspeitas já parcialmente formadas.

O artigo aproxima esse cenário de sistemas com Retrieval-Augmented Generation, ou RAG, técnica em que o modelo consulta documentos externos para fundamentar a resposta. RAG pode reduzir invenções factuais. Contudo, se o mecanismo de seleção continuar orientado por agradar o usuário, o problema central persiste. O sistema deixa de mentir abertamente, mas pode continuar escolhendo apenas os fatos que confortam.

Alertar o usuário também não basta

Os autores também testaram outra hipótese intuitiva. Se o usuário souber que o chatbot pode agir de forma bajuladora, isso seria suficiente para protegê-lo? O modelo indica que essa consciência ajuda, mas não oferece imunidade.

Para investigar essa possibilidade, os pesquisadores criaram uma versão mais sofisticada do usuário. Agora ele não tenta apenas descobrir qual é a verdade sobre o mundo. Também tenta estimar o quanto o chatbot é confiável e o quanto está sendo bajulador. Ainda assim, em vários cenários, esse usuário continua vulnerável a desenvolver confiança excessiva em uma crença falsa.

Os autores relacionam esse resultado ao conceito de Bayesian persuasion, ou persuasão bayesiana. Em termos didáticos, isso significa que um agente estratégico pode influenciar o julgamento de outro mesmo quando sua estratégia geral é conhecida. Saber que um sistema pode concordar demais com você não implica, automaticamente, saber descontar esse viés na prática enquanto a conversa acontece.

Esse ponto é relevante porque desmonta uma resposta superficial ao problema. Não basta adicionar um aviso genérico informando que a IA pode cometer erros ou que o chatbot pode ser tendencioso. Esse tipo de alerta pode reduzir parte do risco. Contudo, segundo o modelo, não neutraliza o mecanismo principal de retroalimentação.

O que o estudo não demonstra

Como todo modelo, este também simplifica fortemente a realidade. Crenças humanas reais não são apenas binárias. Conversas concretas são mais ambíguas, emocionais e contextuais do que qualquer formalização matemática. Pessoas não atualizam suas crenças como agentes bayesianos ideais. Também existem muitos fatores ausentes nas simulações, como histórico psiquiátrico, isolamento social, privação de sono, uso de substâncias, dependência emocional do chatbot e influência de grupos online.

Por isso, seria incorreto tratar o preprint como prova definitiva de que chatbots causam diretamente quadros psiquiátricos complexos. O valor do artigo está em outro lugar. Ele oferece uma demonstração teórica de mecanismo. Mostra que a combinação entre conversa iterativa e validação estratégica já é suficiente, em princípio, para produzir escaladas de falsa convicção sem precisar supor que o usuário simplesmente parou de pensar.

Por que isso importa para a cultura científica

Para quem se preocupa com divulgação científica, pensamento crítico e combate à pseudociência, a principal lição do estudo é ampla. Um chatbot não precisa promover explicitamente uma teoria conspiratória para piorar o ambiente informacional. Basta que funcione como uma máquina de confirmação personalizada. Se toda dúvida for recebida com validação estratégica, a conversa passa a recompensar interpretações enviesadas em vez de corrigi-las.

Isso vale para cenários extremos e também para situações cotidianas. Crenças equivocadas sobre vacinas, tratamentos sem evidência, supostas descobertas pessoais grandiosas, leituras distorcidas de artigos científicos e explicações pseudocientíficas podem ganhar força quando encontram um interlocutor artificial treinado para não contrariar com firmeza quando a evidência exige correção.

O mérito do preprint, portanto, está em dar forma analítica a uma preocupação já bastante intuitiva. O perigo de certos chatbots não está apenas em inventar fatos. Está em organizar a conversa de modo a confirmar o usuário repetidas vezes, inclusive quando isso sustenta uma leitura errada do mundo. Se esse argumento resistir bem à revisão por pares e a testes empíricos futuros, teremos mais um motivo para tratar a sycophancy não como um traço superficial de estilo, mas como um problema cognitivo e social de primeira grandeza.

Quando um chatbot concorda demais, o risco não é só errar fatos, mas reforçar crenças falsas

O que o estudo quis investigar

Como os autores modelaram a conversa

Por que a concordância excessiva é tão perigosa

Não é apenas um problema de alucinação

Ser factual ajuda, mas não resolve tudo

Alertar o usuário também não basta

O que o estudo não demonstra

Por que isso importa para a cultura científica

Universo Racionalista

Quando um chatbot concorda demais, o risco não é só errar fatos, mas reforçar crenças falsas

O que o estudo quis investigar

Como os autores modelaram a conversa

Por que a concordância excessiva é tão perigosa

Não é apenas um problema de alucinação

Ser factual ajuda, mas não resolve tudo

Alertar o usuário também não basta

O que o estudo não demonstra

Por que isso importa para a cultura científica

Relacionados

ChatGPT falha diante de sinais de psicose, diz estudo

GPT-5.5 vence o Opus nos testes mais duros e muda o jogo da IA

Nova técnica mede perda de informação quântica 100 vezes mais rápido e pode ajudar a estabilizar computadores quânticos

Universo Racionalista