Publicado em Science
Autor: Matthew Hutson
Traduzido por Elan Marinho
Imagine procurar, usando suas fotos digitais, por imagens mentais da pessoa ou da figura que você quer. Ou desenhar um novo design de cozinha sem levantar uma caneta. Ou enviar para o amado uma foto de pôr do sol que nunca foi capturada por uma câmera. Um computador que pode ler sua mente poderia ter muitas funções no cotidiano, sem mencionar os usos para quem está paralisado e não consegue se comunicar. Recentemente, os cientistas criaram o primeiro algoritmo que faz esse tipo de interpretação – e que reproduz com precisão – imagens vistas ou imaginadas por qualquer pessoa. Podem demorar décadas até que essa tecnologia esteja pronta para o uso prático, mas os pesquisadores estão um passo mais próximos de construírem sistemas que possam nos ajudar a projetar, no mundo exterior, nossa visão mental interior.
“Eu fiquei impressionado por isso funcionar tão bem”, diz Zhongming Liu, um cientista computacional da Universidade de Purdue em West Lafayette, Indiana, que ajudou a desenvolver o algoritmo que pode reproduzir razoavelmente o que os espectadores veem enquanto assistem a um filme. “Isso é muito legal”.
Usar algoritmos para decodificar imagens mentais não é uma novidade. Desde 2011, pesquisadores recriam videoclipes, fotos e até imagens de sonhos combinando a atividade cerebral com a atividade registrada antes das imagens seres vistas. Mas esses métodos têm diversos limites. Alguns lidam apenas com domínios restritos como a forma do rosto, e outros sequer conseguem criar uma imagem do zero – em vez disso, selecionam imagens pré-programadas ou categorias como “pessoa” ou “pássaro”. Esse novo trabalho pode gerar imagens reconhecíveis de moscas e, ainda, reproduções de formas que não são vistas, mas sim imaginadas.
Para descobrir o que uma pessoa está vendo, os pesquisadores utilizavam Imagem por Ressonância Magnética Funcional (fMRI, do inglês: Functional Magnetic Ressonance Imaging), que mede o fluxo sanguíneo para o cérebro como um proxy para a atividade neural. Eles mapearam as áreas de processamento visual com uma resolução de 2 milímetros enquanto três pessoas olhavam mais de 1.000 imagens várias vezes cada. O objetivo foi considerar justamente a atividade correspondente a uma imagem – como a de um leopardo – e, consequentemente, ter um computador criando uma imagem, o que seria uma produção quase que da mesma atividade.
Mas, em vez de ficar mostrando imagem atrás de imagem até que o computador entenda corretamente, a equipe construiu um software que substitui o cérebro, uma Rede Neural Profunda (DDN, do inglês: Deep Neural Network) com várias camadas de elementos de processamento simples. “Nós acreditamos que essa Rede Neural Profunda é um bom proxy para o processamento hierárquico do cérebro”, diz Yukiyasu Kamitani, um neurocientista da Universidade de Kyoto no Japão, e o autor sênior do estudo. “Ao usar uma DNN, nós podemos extrair informações de diferentes níveis do sistema visual do cérebro”, desde um simples contraste da luz até conteúdos mais significativos como rostos.
Usando um “decodificador” [decoder], os pesquisadores criaram representações de respostas cerebrais em forma de imagem, mas com a DNN. A partir de então, eles não precisaram das medições da fMRI, mas sim das traduções da DNN.
Ao desvendar o que alguém visualizou, a tradução atua como um modelo, e os dados da fMRI são deixados de lado. O sistema, então, tenta criar uma imagem que levará a DNN a responder de uma forma que corresponda a esse modelo. Ele faz isso por tentativa e erro até que, com sorte, crie uma imagem, quer seja a de um leopardo, a de um pato ou a de uma janela de vitral. O sistema começa com algo aleatório – similar a estática de TV – e refina lentamente essa imagem ao longo de um curso de 200 ciclos. Para se aproximar da imagem ideal, o sistema calcula a diferença entre a atividade da DNN e o modelo da atividade da DNN. Esses cálculos fazem com que ele empurre um pixel de uma maneira e outro pixel de outra até se aproximar da imagem ideal.
Para que o produto final fosse mais acurado, os pesquisadores incluíram a “Rede Geradora Profunda” (DGN, do inglês: Deep Generator Network), um algoritmo que nesse caso foi pré-treinado para gerar imagens realistas baseadas em sua introdução. A DGN refina as imagens para torná-las mais naturais. Uma vez que foi adicionada, um observador humano neutro poderia dizer quais das duas imagens deveria ser recriada 99% do tempo, informaram os pesquisadores em um paper carregado para o servidor de pré-impressão bioRxiv no final do mês passado.
Em seguida, os cientistas tentaram ler a mente das pessoas que simplesmente imaginavam imagens. Nesse momento, eles examinaram os cérebros dos três indivíduos após pedir que eles recuperassem imagens anteriormente exibidas, incluindo um peixe, um avião e formas simples coloridas. O método não funcionou bem com fotos, mas com as formas o gerador criou uma imagem reconhecível em 83% do tempo.
É “um trabalho interessante e meticuloso”, diz Nikolaus Kriegeskorte, um neurocientista computacional do Instituto de Zuckerman, da Universidade de Columbia. Ele se pergunta até que ponto as imprecisões nas imagens geradas por computador se devem a limitações relativas às medições da atividade cerebral e até que ponto elas se devem aos erros de como nosso cérebro interpreta as imagens. “Uma fMRI com resolução superior e outras técnicas de imagem cerebral podem melhorar ainda mais os resultados”, diz ele. Com melhores medições e melhoria contínua dos algoritmos, poderemos algum dia nos comunicar através de imagens mentais.