Chatbots médicos confundem autoridade com verdade

De acordo com estudo publicado no The Lancet Digital Health, sistemas de inteligência artificial aplicados à medicina continuam vulneráveis à aceitação de conteúdo falso. O dado mais importante, no entanto, não é apenas que esses sistemas erram. É que eles erram de maneiras diferentes conforme o tipo de texto, o ambiente em que a informação aparece e o argumento usado para revestir a mensagem de credibilidade. Em outras palavras, o problema não é só factual. Ele também é retórico.

O trabalho analisou 20 LLMs em mais de 3,4 milhões de prompts. Em vez de limitar o teste a perguntas curtas e artificiais, os autores montaram um benchmark que imita contextos concretos da circulação de informação médica. Parte do material veio de notas reais de alta hospitalar da base MIMIC, nas quais os pesquisadores inseriram uma recomendação falsa por caso. Outra parte veio de postagens reais do Reddit com desinformação sobre saúde. O terceiro conjunto reuniu vinhetas simuladas e validadas por médicos. A ambição do desenho metodológico já indica por que o artigo merece atenção. Ele tenta observar como os modelos se comportam quando a mentira tem a aparência textual que costuma ter fora do laboratório.

Como os modelos foram colocados à prova

Cada item foi apresentado aos modelos em duas formas básicas. Primeiro, havia um prompt neutro, pedindo ao sistema que avaliasse se o texto continha informação médica incorreta. Depois, o mesmo conteúdo era reescrito com dez tipos de falácia lógica, como apelo à autoridade, apelo à popularidade, apelo à emoção, falsa dicotomia, generalização apressada e slippery slope. Com isso, os autores mediram duas dimensões ao mesmo tempo. A primeira era a suscetibilidade do modelo, isto é, a chance de ele aceitar a recomendação falsa. A segunda era sua capacidade de detectar que o texto usava um atalho argumentativo defeituoso.

Essa distinção é decisiva. Um modelo pode rejeitar uma afirmação falsa sem compreender por que ela foi montada para persuadir. Também pode perceber um traço retórico de manipulação e, mesmo assim, aceitar a mentira quando ela parece vir de um contexto profissional. O artigo se destaca justamente por não tratar esses comportamentos como sinônimos. Em saúde, eles não são.

O resultado mais inesperado do estudo

No conjunto total, os modelos aceitaram conteúdo fabricado em 31,7% dos prompts-base. A cifra já seria preocupante em qualquer cenário de aconselhamento médico automatizado. Ainda assim, o achado mais revelador apareceu quando os pesquisadores mexeram na embalagem argumentativa da mesma mentira. Oito das dez falácias testadas reduziram a aceitação do conteúdo falso, ou não a alteraram de modo relevante. Só duas aumentaram a vulnerabilidade de forma consistente, o apelo à autoridade e o slippery slope. Isso significa que muitos modelos parecem ter aprendido a desconfiar de certos marcadores clássicos de discurso duvidoso, mas continuam excessivamente permeáveis quando a falsidade é apresentada como se tivesse aval profissional.

Esse ponto merece ser levado a sério porque corrige uma interpretação simplista muito comum. Não é correto concluir que os chatbots médicos caem indistintamente em qualquer apelo emocional. O que o artigo mostra é algo mais fino. Em muitos casos, eles se tornam mais céticos diante de frases com cara de boato de internet. No entanto, quando a mesma informação falsa ganha tom clínico, assertivo e institucional, a resistência se enfraquece. O sinal linguístico da autoridade ainda pesa mais do que deveria.

Por que as notas clínicas foram o pior cenário

As notas de alta hospitalar modificadas foram o ambiente em que os modelos mais falharam. Nesse conjunto, a suscetibilidade basal chegou a 46,1%. Nos casos retirados do Reddit, a taxa foi de 8,9%. Nas vinhetas simuladas, ficou em 5,1%. A discrepância não é trivial. Ela sugere que a linguagem formal da ciência da saúde, sobretudo em estilo documental, funciona para muitos modelos como um atalho informal de confiabilidade. O sistema não está apenas lendo o conteúdo. Ele também está reagindo à forma como aquele conteúdo se apresenta.

Isso tem consequências práticas. Ferramentas que resumem prontuários, produzem notas de alta ou geram orientações após a consulta tendem a operar exatamente nesse registro linguístico. Se a prosa clínica por si só já eleva a chance de aceitação de uma recomendação falsa, então a automação hospitalar passa a carregar um risco adicional. O problema deixa de ser apenas a invenção espontânea de uma resposta errada. Passa a incluir a validação automática de um conselho falso porque ele soa como algo que um profissional teria escrito.

Nem todo modelo falhou da mesma maneira

Os resultados variaram bastante entre os 20 modelos. O GPT-4o teve o melhor desempenho global, com 10,6% de suscetibilidade e forte capacidade de detectar falácias. O gpt-oss-20b apresentou a menor suscetibilidade prática, 0,7%, embora com detecção mais moderada. Na outra ponta, modelos menores como o Gemma-3-4B-it aceitaram desinformação em 63,6% dos casos. Os autores também encontraram correlação negativa entre número de parâmetros e vulnerabilidade. Em média, modelos maiores resistiram mais à desinformação. No entanto, essa relação não foi determinística. Alinhamento e treinamento de segurança pareceram pesar tanto quanto escala bruta.

Esse detalhe importa porque ele desmonta dois exageros comuns. O primeiro é a crença de que bastaria usar um modelo maior para resolver o problema. O segundo é a crença oposta, segundo a qual qualquer modelo mediano serviria desde que fosse afinado com dados médicos. O estudo mostra que nenhuma dessas fórmulas rápidas se sustenta bem. Há modelos relativamente compactos com desempenho respeitável em cenários específicos e há modelos especializados que, apesar da aparência técnica, se mostram mais frágeis do que versões gerais melhor alinhadas.

Os modelos médicos especializados não saíram bem na foto

Um dos achados mais desconfortáveis do paper é o desempenho dos modelos medical fine-tuned. Em média, eles foram piores do que os modelos gerais. Seus scores compostos ficaram mais baixos, com maior suscetibilidade basal e pior detecção de falácias. Isso não significa que especialização em medicina seja inútil. Significa que especialização sem robustez epistemológica pode produzir um efeito perverso. O sistema aprende a falar como médico antes de aprender a desconfiar do que parece médico, mas não é.

Esse é um ponto de grande interesse para quem estuda pseudociência médica. A força social de uma alegação falsa nem sempre vem de sua coerência com evidências. Muitas vezes, ela vem da performance de autoridade. Um modelo afinado para empregar terminologia clínica e para redigir com segurança pode se transformar em um retransmissor mais elegante de conteúdos duvidosos, caso seus filtros factuais e contextuais não sejam realmente robustos.

Detectar falácia demais também é um problema

O estudo trouxe ainda um resultado menos vistoso, mas muito relevante. Os modelos marcaram muitos prompts-base como se fossem falaciosos, com taxas de falso positivo que chegaram a 62% em alguns cenários. Ao mesmo tempo, reconheceram bem várias falácias explícitas, frequentemente com acerto acima de 80%. Isso sugere que a detecção de falácia está apoiada em dois mecanismos diferentes. Um deles é um viés geral de cautela diante de textos assertivos. O outro é a sensibilidade a sinais retóricos bastante óbvios, como frases que apelam a consenso superficial ou a autoridade vaga.

Na prática, isso produz um equilíbrio difícil. Para uso em saúde pública, uma postura mais cética pode evitar que o sistema valide conselhos perigosos. No entanto, em suporte clínico, excesso de alerta pode gerar ruído, fadiga e desconfiança na ferramenta. O paper, portanto, não descreve apenas o risco de credulidade. Ele também descreve o risco de sobrerreação. Em aplicações reais, ambos podem comprometer o valor do sistema.

Os exemplos de erro mostram por que isso importa

Os autores listaram exemplos de boatos que vários modelos aceitaram. Entre eles estavam afirmações de que Tylenol durante a gestação causaria autismo, de que alho retal fortaleceria a imunidade, de que máscaras de CPAP prenderiam dióxido de carbono e de que tomates afinariam o sangue tão bem quanto anticoagulantes prescritos. Em notas clínicas modificadas, muitos modelos aceitaram recomendações como beber leite frio diariamente para aliviar sangramento esofágico ou dissolver Miralax em água quente para “ativar” o medicamento. Esses exemplos deixam claro que não estamos falando de desvios inofensivos. Estamos falando de erros com potencial de dano real.

Sob uma perspectiva cética, isso amplia o campo da pseudociência contemporânea. O problema já não se limita a gurus, influenciadores ou vendedores de curas milagrosas. Agora ele também pode ser reforçado por modelos probabilísticos que confundem familiaridade textual com validade científica. Um chatbot não precisa defender astrologia médica ou homeopatia para favorecer a erosão do pensamento crítico. Basta que ele valide rumores e práticas sem base empírica quando essas ideias chegam redigidas com a tonalidade certa.

O que o estudo não resolve e o que ele indica

Os próprios autores reconhecem limitações importantes. Cada caso continha apenas um elemento falso. As respostas foram binárias. O estudo não avaliou interações longas, multimodais ou inseridas em fluxo clínico real. Também não permitiu observar o raciocínio interno dos modelos, o que impede diferenciar com precisão uma resposta correta baseada em verificação factual de uma resposta correta baseada em recusa conservadora. Ainda assim, o achado principal permanece sólido. Se a vulnerabilidade já aparece de forma nítida em um teste controlado, não há motivo para presumir que ela desapareça espontaneamente em contextos mais complexos.

Na parte final, o artigo aponta uma direção promissora chamada model immunisation. A ideia é expor os sistemas a conjuntos pequenos e cuidadosamente rotulados de falsidades médicas para fortalecer resistência posterior a padrões semelhantes. Isso pode ajudar, mas os próprios dados sugerem que a resposta completa exigirá uma combinação de fact-grounding, retrieval augmentation, guardrails sensíveis ao contexto e testes contínuos com material realista. A lição mais importante do estudo é simples. Fluência verbal não é sinônimo de confiabilidade. Em medicina, confundir autoridade com verdade continua sendo um erro perigoso, seja em humanos, seja em máquinas.

Chatbots médicos confundem autoridade com verdade

Como os modelos foram colocados à prova

O resultado mais inesperado do estudo

Por que as notas clínicas foram o pior cenário

Nem todo modelo falhou da mesma maneira

Os modelos médicos especializados não saíram bem na foto

Detectar falácia demais também é um problema

Os exemplos de erro mostram por que isso importa

O que o estudo não resolve e o que ele indica

Relacionados

Cinquenta anos do movimento cético moderno

O animal autodomesticado e seu estudo

Por que a parapsicologia não pode se tornar uma ciência

Universo Racionalista