Os pesquisadores dizem que seu sistema de inteligência artificial poderia ajudar a democratizar a medicina. Um chatbot baseado no grande modelo de linguagem do Google pode obter históricos médicos de pacientes simulados e oferecer uma variedade de diagnósticos.

Um sistema de inteligência artificial (IA) treinado para conduzir entrevistas médicas igualou ou até superou o desempenho dos médicos humanos em conversar com pacientes simulados e listar possíveis diagnósticos com base no histórico médico dos pacientes.

Leia também: OpenAI argumenta que é ‘impossível’ treinar ChatGPT sem trabalho protegido por direitos autorais

O chatbot, que se baseia num modelo de linguagem grande (LLM) desenvolvido pelo Google, foi mais preciso do que os médicos de cuidados primários certificados no diagnóstico de condições respiratórias e cardiovasculares, entre outras. Em comparação com os médicos humanos, conseguiu adquirir uma quantidade semelhante de informações durante entrevistas médicas e obteve uma classificação mais elevada em empatia.

“Até onde sabemos, esta é a primeira vez que um sistema de IA conversacional foi projetado de forma ideal para o diálogo diagnóstico e para a obtenção do histórico clínico”, diz Alan Karthikesalingam, cientista de pesquisa clínica do Google Health em Londres e coautor do estudo, publicado em 11 de janeiro no repositório de pré-impressão arXiv. O estudo porém ainda não foi revisado por pares.

Apelidado de Articulate Medical Intelligence Explorer (AMIE), o chatbot ainda é puramente experimental. Não foi testado em pessoas com problemas reais de saúde – apenas em atores treinados para retratar pessoas com problemas de saúde. “Queremos que os resultados sejam interpretados com cautela e humildade”, afirma Karthikesalingam.

Embora o chatbot esteja longe de ser utilizado nos cuidados clínicos, os autores argumentam que poderá eventualmente desempenhar um papel na democratização dos cuidados de saúde. A ferramenta pode ser útil, mas não deve substituir as interações com os médicos, diz Adam Rodman, médico de medicina interna da Harvard Medical School, em Boston, Massachusetts. “A medicina é muito mais do que coletar informações – trata-se de relações humanas”, diz ele.

Aprendendo uma tarefa delicada

Poucos esforços para aproveitar os LLMs para a medicina exploraram se os sistemas podem emular a capacidade de um médico de obter o histórico médico de uma pessoa e usá-lo para chegar a um diagnóstico. Os estudantes de medicina passam muito tempo treinando para fazer exatamente isso, diz Rodman. “É uma das habilidades mais importantes e difíceis de inculcar nos médicos.”

Um desafio enfrentado pelos desenvolvedores foi a escassez de conversas médicas do mundo real disponíveis para uso como dados de treinamento, diz Vivek Natarajan, cientista pesquisador de IA do Google Health em Mountain View, Califórnia, e coautor do estudo. Para enfrentar esse desafio, os investigadores desenvolveram uma forma de o chatbot treinar as suas próprias “conversas”.

Os pesquisadores fizeram uma rodada inicial de ajuste fino do LLM básico com conjuntos de dados existentes do mundo real, como registros eletrônicos de saúde e conversas médicas transcritas. Para treinar ainda mais o modelo, os pesquisadores levaram o LLM a desempenhar o papel de uma pessoa com uma condição específica e de um clínico empático com o objetivo de compreender a história da pessoa e elaborar possíveis diagnósticos.

A equipe também pediu ao modelo que desempenhasse mais um papel: o de crítico que avalia a interação do médico com a pessoa em tratamento e dá feedback sobre como melhorar essa interação. Essa crítica é usada para treinar ainda mais o LLM e gerar melhores diálogos.

Para testar o sistema, os investigadores recrutaram 20 pessoas que tinham sido treinadas para que se passarem por pacientes e fizeram com que tivessem consultas online baseadas em texto – tanto com a AMIE como com 20 médicos certificados. Eles não foram informados se estavam conversando com um humano ou com um bot.

Os atores simularam 149 cenários clínicos e foram então convidados a avaliar a sua experiência. Um conjunto de especialistas também avaliou o desempenho da AMIE e dos médicos.

O chatbot AMIE acerta no teste

O sistema de IA igualou ou superou a precisão diagnóstica dos médicos em todas as seis especialidades médicas consideradas. O bot superou os médicos em 24 dos 26 critérios de qualidade da conversa, incluindo educação, explicação da condição e do tratamento, parecer honesto e expressar cuidado e comprometimento.

“Isso não significa de forma alguma que um modelo de linguagem seja melhor do que os médicos na obtenção da história clínica”, diz Karthikesalingam. Ele observa que os médicos de atenção primária no estudo provavelmente não estavam acostumados a interagir com os pacientes por meio de bate-papo por texto, o que pode ter afetado seu desempenho.

Por outro lado, um LLM tem a vantagem injusta de ser capaz de redigir rapidamente respostas longas e bem estruturadas, diz Karthikesalingam, permitindo-lhe ser consistentemente atencioso sem se cansar.

Procura-se: chatbot imparcial

Um próximo passo importante para a investigação, diz ele, é realizar estudos mais detalhados para avaliar potenciais preconceitos e garantir que o sistema é justo entre diferentes populações. A equipe do Google também está começando a analisar os requisitos éticos para testar o sistema em humanos que têm problemas médicos reais.

Daniel Ting, cientista clínico de IA da Duke-NUS Medical School em Singapura, concorda que investigar o sistema em busca de preconceitos é essencial para garantir que o algoritmo não penalize grupos raciais que não estão bem representados nos conjuntos de dados de treinamento.

A privacidade dos usuários do Chatbot também é um aspecto importante a ser considerado, diz Ting. “Para muitas dessas plataformas comerciais de modelos de linguagem de grande porte, ainda não temos certeza de onde os dados estão sendo armazenados e como estão sendo analisados”, diz ele.

Referências

Tu, T. et al. Preprint at https://arxiv.org/abs/2401.05654 (2024).

Publicado na Nature