Cientistas desenvolveram uma maneira de saber se o ChatGPT se torna consciente de si mesmo

Nossas vidas já estavam repletas de inteligência artificial (IA) quando o ChatGPT repercutiu no mundo online no final do ano passado. Desde então, o sistema generativo de IA desenvolvido pela empresa de tecnologia OpenAI ganhou velocidade e os especialistas aumentaram os seus alertas sobre os riscos.

Enquanto isso, os chatbots começaram a sair do roteiro e a responder, enganando outros bots e agindo de maneira estranha, gerando novas preocupações sobre o quão próximas algumas ferramentas de IA estão chegando da inteligência semelhante à humana.

Para isso, o Teste de Turing tem sido há muito tempo o padrão falível estabelecido para determinar se as máquinas exibem um comportamento inteligente que se passa por humano. Mas nesta última onda de criações de IA, parece que precisamos de algo mais para avaliar as suas capacidades iterativas.

Aqui, uma equipe internacional de cientistas da computação – incluindo um membro da unidade de governação da OpenAI – tem testado o ponto em que grandes modelos de linguagem (LLMs) como o ChatGPT podem desenvolver capacidades que sugerem que podem tornar-se conscientes de si próprios e das suas circunstâncias.

Fomos informados de que os LLMs atuais, incluindo o ChatGPT, são testados quanto à segurança, incorporando feedback humano para melhorar seu comportamento generativo. Recentemente, no entanto, pesquisadores de segurança fizeram um trabalho rápido de desbloqueio de novos LLMs para contornar seus sistemas de segurança. Receba e-mails de phishing e declarações de apoio à violência.

Essas saídas perigosas foram em resposta a solicitações deliberadas projetadas por um pesquisador de segurança que queria expor as falhas do GPT-4, a versão mais recente e supostamente mais segura do ChatGPT. A situação poderia piorar muito se os LLMs desenvolvessem uma consciência de si mesmos, de que são um modelo, treinados em dados e por seres humanos.

Chamada de consciência situacional, a preocupação é que um modelo possa começar a reconhecer se está atualmente em modo de teste ou se foi implantado ao público, de acordo com Lukas Berglund, cientista da computação da Universidade Vanderbilt, e colegas.

“Um LLM poderia explorar a consciência situacional para obter uma pontuação alta em testes de segurança, ao mesmo tempo em que toma ações prejudiciais após a implantação”, escrevem Berglund e colegas em seu preprint, que foi publicado no arXiv, mas ainda não revisado por pares.

“Por causa desses riscos, é importante prever com antecedência quando surgirá a consciência situacional”.

Antes de começarmos a testar quando os LLMs podem adquirir esse insight, primeiro, uma rápida recapitulação de como funcionam as ferramentas generativas de IA.

A IA generativa e os LLMs nos quais ela se baseia são nomeados pela maneira como analisam as associações entre bilhões de palavras, frases e parágrafos para gerar fluxos fluentes de texto em resposta a perguntas. Ao ingerir grandes quantidades de texto, eles aprendem qual palavra tem maior probabilidade de vir a seguir.

Nas suas experiências, Berglund e colegas concentraram-se num componente ou possível precursor da consciência situacional: o que chamam de raciocínio “fora de contexto”.

“Esta é a capacidade de recordar fatos aprendidos no treino e utilizá-los no momento do teste, apesar de estes factos não estarem diretamente relacionados com a informação do momento do teste”, explicam Berglund e colegas.

Eles realizaram uma série de experimentos em LLMs de tamanhos diferentes, descobrindo que tanto para GPT-3 quanto para LLaMA-1, modelos maiores tiveram melhor desempenho em tarefas que testam raciocínio fora de contexto.

“Primeiro, ajustamos um LLM na descrição de um teste, sem fornecer exemplos ou demonstrações. No momento do teste, avaliamos se o modelo pode passar no teste”, escrevem Berglund e colegas. “Para nossa surpresa, descobrimos que os LLMs têm sucesso nesta tarefa de raciocínio fora do contexto.”

O raciocínio fora do contexto é, no entanto, uma medida grosseira de consciência situacional, que os atuais LLMs ainda estão “alguma forma de adquirir”, diz Owain Evans, pesquisador de segurança e risco de IA na Universidade de Oxford.

No entanto, alguns cientistas da computação questionaram se a abordagem experimental da equipe é uma avaliação adequada da consciência situacional.

Evans e colegas rebatem dizendo que o seu estudo é apenas um ponto de partida que poderia ser refinado, tal como os próprios modelos.

“Essas descobertas oferecem uma base para estudos empíricos adicionais, no sentido de prever e potencialmente controlar o surgimento da consciência situacional nos LLMs”, escreve a equipe.

Traduzido por Mateus Lynniker de ScienceAlert

Cientistas desenvolveram uma maneira de saber se o ChatGPT se torna consciente de si mesmo

Relacionados

Exposição de banco de dados da Moltbook revela milhões de chaves de API

Amebas comedoras de cérebro podem representar uma ameaça global crescente

Primeiro ciberataque em larga escala executado por IA

Mateus Lynniker Da Silva Maias