O chatbot médico movido a inteligência artificial do Google alcançou uma nota de aprovação em um difícil exame de licenciamento médico nos Estados Unidos, mas suas respostas ainda ficam aquém das de médicos humanos, disse um estudo revisado por pares na quarta-feira.

No ano passado, o lançamento do ChatGPT – cujo desenvolvedor OpenAI é apoiado pela rival do Google, Microsoft – deu início a uma corrida entre gigantes da tecnologia no crescente campo da IA.

Embora muito tenha sido discutido sobre as possibilidades futuras – e perigos – da IA, a saúde é uma área em que a tecnologia já havia mostrado um progresso tangível, com algoritmos capazes de ler certos exames médicos, assim como humanos.

O Google revelou pela primeira vez sua ferramenta de IA para responder a perguntas médicas, chamada Med-PaLM, em um estudo de pré-impressão em dezembro. Ao contrário do ChatGPT, ele não foi divulgado ao público.

A gigante da tecnologia dos EUA diz que o Med-PaLM é o primeiro grande modelo de linguagem, uma técnica de IA treinada em grandes quantidades de texto produzido por humanos, a passar no US Medical Licensing Examination (USMLE).

A nota para aprovação no exame, que é feito por estudantes de medicina e médicos em treinamento nos Estados Unidos, é de cerca de 60%.

​Em fevereiro, um estudo disse que o ChatGPT havia alcançado resultados aprovados ou quase aprovados.

Em um estudo revisado por pares publicado na revista Nature na quarta-feira, os pesquisadores do Google disseram que o Med-PaLM alcançou 67,6% em questões de múltipla escolha no estilo do USMLE.

“O Med-PaLM tem um desempenho encorajador, mas permanece inferior aos médicos”, disse o estudo.

Para identificar e reduzir as “alucinações” – o nome para quando os modelos de IA oferecem informações falsas – o Google disse que desenvolveu um novo benchmark de avaliação.

Karan Singhal, pesquisador do Google e principal autor do novo estudo, disse à AFP que a equipe usou o benchmark para testar uma versão mais recente de seu modelo com resultados “super emocionantes”.

O Med-PaLM 2 alcançou 86,5 por cento no exame USMLE, superando a versão anterior em quase 20 por cento, de acordo com um estudo de pré-impressão divulgado em maio que não foi revisado por pares.

Médicos ou um elefante na sala

James Davenport, um cientista da computação da Universidade de Bath, no Reino Unido, não envolvido na pesquisa, disse que “há um elefante na sala” para esses chatbots médicos movidos a IA.

Há uma grande diferença entre responder a “perguntas médicas e a medicina real”, que inclui diagnosticar e tratar problemas de saúde genuínos”, disse ele.

Anthony Cohn, especialista em IA da Universidade de Leeds, no Reino Unido, disse que as alucinações provavelmente sempre seriam um problema para modelos de linguagem tão grandes, devido à sua natureza estatística.

Portanto, esses modelos “devem sempre ser considerados como assistentes, e não como tomadores de decisão finais”, disse Cohn.

Singhal disse que, no futuro, o Med-PaLM poderia ser usado para apoiar os médicos a oferecer alternativas que podem não ter sido consideradas de outra forma.

O Wall Street Journal informou no início desta semana que o Med-PaLM 2 está em testes no prestigiado hospital de pesquisa Mayo Clinic dos EUA desde abril.

Singhal disse que não poderia falar sobre parcerias específicas.

Mas ele enfatizou que qualquer teste não seria “clínico, voltado para o paciente ou capaz de causar danos aos pacientes”.

Em vez disso, seria para “tarefas mais administrativas que podem ser automatizadas com relativa facilidade, com baixo risco”, acrescentou.

© Agence France-Presse

Publicado no ScienceAlert