Publicado em Science
Autor: Matthew Hutson
Traduzido por Elan Marinho
A tradução automática de línguas percorreu um longo caminho graças às redes neurais [neural networks] – algoritmos de computador que se inspiram no cérebro humano. Mas o treinamento de tais redes requer um enorme montante de dados: milhões de traduções, de sentença em sentença, para demonstrar como um ser humano traduziria. Agora, dois novos papers mostram que as redes neurais podem aprender a traduzir sem textos paralelos – um avanço surpreendente que poderia tornar documentos em outras línguas muito mais acessíveis.
“Imagine que você dá a uma pessoa muitos livros em chinês e em ábare – sem que se repitam volumes de uma língua para a outra – e que a pessoa tenha que aprender a traduzir do chinês para o árabe. Isso parece impossível, certo?” diz o primeiro autor desse estudo, Mikel Artetxe, um cientista computacional da Universidade do País Basco (UPV) em São Sebastião, Espanha. “Mas nós mostramos que um computador pode fazer isso”.
A maioria das máquinas de aprendizagem – em que redes neurais e outros algoritmos de computador aprendem por experiência – é “supervisionada”. Um computador faz um palpite, recebe a resposta correta, e ajusta seu procedimento em função dela. Isso funciona bem quando se ensina um computador a traduzir entre, digamos, o inglês e o francês, porque muitos documentos existem em ambas as línguas. Mas não funciona tão bem para línguas raras ou para as populares que não possuem muitos textos paralelos.
Os dois novos papers – ambos submetidos à International Conference on Learning Representations do próximo ano, mas ainda não revisados por pares – focam em um outro método: aprendizagem de máquina não-supervisionada [unsupervised machine learning]. Para começar, cada qual constrói dicionários bilíngues sem o auxílio de um professor humano dizendo ao computador quando o palpite está correto. Isso é possível porque as línguas possuem fortes similaridades relativas às formas com as quais as palavras se agrupam umas com as outras. As palavras para mesa e cadeira, por exemplo, são frequentemente utilizadas em conjunto em todas as línguas. Nesse sentido, se um computador mapear essas “co-ocorrências” como um atlas rodoviário gigante com palavras para cidades, então os mapas para diferentes línguas parecerão uns com os outros embora contendo palavras diferentes. Um computador pode, por conseguinte, descobrir a melhor forma de sobrepor um atlas sobre o outro. Voilà! Você tem um dicionário bilíngue.
Os novos papers, que utilizam métodos notavelmente similares, indicam que é possível traduzir também ao nível de sentenças. Ambos utilizam duas estratégias de treinamento chamadas de tradução reversa [back translation] e eliminação de ruído [denoising]. Na tradução reversa, uma sentença de uma língua é traduzida grosseiramente para outra e, em seguida, se faz a tradução de volta para a língua original. Se a sentença traduzida de retorno não for idêntica à original, as redes neurais são ajustadas para que na vez seguinte elas fiquem mais próximas. A eliminação de ruído é similar à tradução reversa, mas em vez dela ir de uma língua para outra e fazer o caminho reverso, ela adiciona um ruído à sentença (por reorganização ou remoção de palavras) e tenta traduzir de volta para a original. Juntos, esses métodos ensinam às redes a profunda estrutura da língua.
Existem leves diferenças entre as técnicas. O sistema da UPV retorna traduções mais frequentemente durante o treinamento. O outro sistema, criado pelo cientista da computação do Facebook Guillaume Lample, com sede e colaboradores em Paris, adiciona um passo extra durante a tradução. Antes de decodificarem a sentença de uma língua para outra, os dois sistemas codificam a sentença para uma representação mais abstrata; mas o sistema do Facebook verifica se essa “língua” intermediária está abstrata de fato. Artetxe e Lample dizem que poderiam melhorar seus resultados ao aplicarem as técnicas dos papers um do outro.
Em relação aos únicos resultados diretamente comparáveis entre os dois papers – traduzindo entre os textos em inglês e em francês extraídos do mesmo conjunto de cerca de 30 milhões de sentenças –, ambos conseguiram pontuação no exame de avaliação bilíngue [evaluation understudy score] – usado para medir quão acuradas são as traduções – de cerca de 15 em ambas as direções. Essa pontuação não é tão alta quanto a do Google Tradutor, que possui um método supervisionado com pontuação de cerca de 40; além dos humanos, que conseguem uma pontuação maior do que 50, mas isso é melhor do que uma tradução do tipo “palavra por palavra”. Os autores dizem que os sistemas poderiam ser facilmente aprimorados caso se tornassem “semi-supervisionados” – havendo algumas milhares de sentenças paralelas adicionadas ao treinamento.
Além disso, para traduzir entre línguas sem muitos textos paralelos, Artetxe e Lample dizem que esses sistemas poderiam ajudar com pares comuns do inglês e do francês caso os textos paralelos fossem todos do mesmo tipo, como uma reportagem de jornal; só que você quer traduzir para um novo domínio, como gírias de rua ou jargões médicos. Mas “Isso está no início”, adverte Artetxe e seu co-author Eneko Agirre. “Nós apenas abrimos um novo caminho de pesquisa, então não sabemos para onde ele está indo”.
“É um choque que um computador consiga aprender a traduzir sem a supervisão de um ser humano”, diz Di He, cientista computacional da Microsoft em Pequim cujo trabalho influenciou os dois papers. Artetxe diz que o fato de seu método e o de Lample – carregados para arXiv com um dia de diferença um do outro – serem similares é muito surpreendente. “Mas, ao mesmo tempo, isso é ótimo. Isso significa que o enfoque está realmente na direção certa”.