Nova IA traduz instantaneamente tabuletas cuneiformes de 5.000 anos

Traduzido por Julio Batista
Original de Kevin Dickinson para o Big Think

A tradução não é simplesmente uma questão de trocar uma palavra por uma palavra correspondente em outro idioma. Uma tradução de alta qualidade exige que o tradutor entenda como os dois idiomas unem os pensamentos e, em seguida, usar esse conhecimento para criar uma tradução que mantenha as nuances linguísticas do original que os falantes nativos entendem sem esforço.

Por mais difícil que seja esse processo, não é nada comparado ao desafio de traduzir uma língua antiga para uma língua moderna. Esses tradutores devem não apenas ressuscitar idiomas extintos de fontes escritas, mas também ter conhecimento íntimo de como as culturas que produziram essas fontes evoluíram ao longo dos séculos. Como se isso não bastasse, suas fontes costumam ser fragmentadas, deixando um contexto crucial perdido no tempo.

Por causa disso, o número de pessoas capazes de traduzir idiomas da antiguidade é pequeno, e seus melhores esforços são frequentemente superados pelo volume de textos desenterrados por arqueólogos.

Pegue o antigo acadiano, por exemplo. Esta antiga língua semítica é uma das mais bem registradas do mundo antigo. Centenas de milhares – segundo alguns relatos, mais de um milhão – de textos acadianos foram descobertos e hoje estão em museus e universidades. Muitos foram até digitalizados online. Cada um tem o potencial de nos ensinar sobre a vida, a política e as crenças das primeiras civilizações, mas esse conhecimento permanece bloqueado no tempo e na mão de obra necessários para traduzi-los.

Para ajudar a mudar isso, uma equipe multidisciplinar de arqueólogos e cientistas da computação desenvolveu uma inteligência artificial que pode traduzir o acadiano quase instantaneamente e desvendar o registro histórico preservado nessas tabuletas de 5.000 anos.

Centenas de milhares de tabuletas cuneiformes estão guardadas em coleções de museus e universidades, mas muitas delas permanecem sem tradução devido ao tempo intensivo do processo e ao fato de poucas pessoas terem experiência para fazer isso. (Créditos: Phillip Tellis/Wikimedia Commons)

Acadiano perdido (e encontrado)

O acadiano era a língua materna do Império Acádio, que surgiu por volta de 2300 a.C. por meio das conquistas de seu fundador, Sargão, o Grande. Como língua falada, o acadiano acabaria se dividindo em dialetos assírio e babilônico antes de ser completamente substituído pelo aramaico no início do primeiro milênio a.C. Hoje, é uma língua verdadeiramente extinta, sem sequer línguas filhas para continuar seu legado.

Como linguagem escrita, no entanto, o acadiano provou ser mais duradouro. O império emprestou a escrita cuneiforme de sua predecessora, a civilização suméria. Este sistema de escrita usava um estilete de junco para gravar glifos em forma de cunha em tabletes de argila úmida antes deles secarem (daí o nome cuneiforme, que literalmente significa “em forma de cunha” em latim). Mesmo depois que o aramaico substituiu o acadiano como a língua comum da região, alguns estudiosos continuaram a escrever em acadiano cuneiforme no primeiro século d.C

Essa mentalidade tradicional também teve um benefício não intencional para os arqueólogos modernos. Embora a escrita cuneiforme pudesse ser feita em papiro, era mais frequentemente escrita em argila ou pedra. Esses materiais resistem muito melhor aos incêndios e inundações que devastaram outros registros. E embora o tempo seja cruel com todas as coisas – os arqueólogos raramente descobrem tabuletas cuneiformes em perfeitas condições – esta é uma das razões pelas quais a escrita acadiana pode ser tão bem preservada no registro histórico.

“Ironicamente, grandes incêndios destrutivos preservaram algumas das maiores bibliotecas da antiga Mesopotâmia – porque eram feitas de barro. Em contraste, todas as bibliotecas de papiro do antigo Egito foram queimadas ou reduzidas a pó, embora muitos códices individuais tenham sobrevivido”, escreveu o linguista Steven Roger Fischer em A History of Writing.

Mesmo com tais riquezas linguísticas, traduzir adequadamente o registro dessas antigas bibliotecas não é pouca coisa. Além dos desafios já mencionados, a língua acadiana é polivalente. Ou seja, seus símbolos cuneiformes podem ter várias leituras diferentes dependendo de como cada um funciona em uma frase. Há muitas razões para esse desenvolvimento, mas, de acordo com Fischer, uma das razões pelas quais os acadianos nunca simplificaram seu alfabeto foi que eles “pareciam estar presos à tradição e a uma eficiência auto-imposta”. Essa mentalidade tradicional os levou a continuar usando a escrita suméria para uma linguagem muito diferente da suméria.

Como tal, traduzir a língua acadiana é um processo de duas etapas. Primeiro, os estudiosos devem transliterar os sinais cuneiformes. Ou seja, eles pegam o cuneiforme e o reescrevem usando a fonética de som semelhante da língua-alvo. Um exemplo com o qual a maioria dos leitores estará familiarizado é a palavra árabe الله, que se traduz para o inglês como “Deus”, mas translitera como “Alá”. Essa transliteração é o mais próximo que o alfabeto latino pode chegar de produzir a palavra como ela soa em árabe. Os estudiosos então pegam sua transliteração do texto e a traduzem para uma linguagem moderna.

IA agindo rápido para resultados instantâneos

Como você pode imaginar, esse pode ser um processo longo e trabalhoso — que leva anos de treinamento e dedicação para aprender a ter bons resultados. Para ajudar a acelerar as coisas, a equipe de pesquisa desenvolveu um modelo de tradução automática neural para a escrita cuneiforme acadiana, a mesma tecnologia por trás do Google Tradutor.

A equipe treinou o modelo de IA em uma amostra de textos cuneiformes do Open Richly Annotated Cuneiform Corpus e o ensinou a traduzir de duas maneiras distintas. Primeiro, o modelo de IA aprendeu a traduzir o acadiano a partir de transliterações dos textos originais. Também aprendeu a traduzir símbolos cuneiformes diretamente. Mais especificamente, traduziu glifos Unicode de textos cuneiformes que foram gerados por outra ferramenta que produz automaticamente Unicode a partir de uma imagem de uma tabuleta original.

O modelo de IA então teve que descobrir como lidar com as nuances dos vários gêneros da amostra – por exemplo, a diferença entre obras literárias e cartas administrativas – bem como lidar com as mudanças encontradas na escrita cuneiforme ao longo dos milênios em que foi usada. O modelo AI foi então testado usando o subestudo de avaliação bilíngue 4 (BLEU4), um algoritmo usado para avaliar texto traduzido por máquina.

Em seu teste de transliteração para inglês, o modelo de IA da equipe marcou 37,47. Em seu teste cuneiforme para inglês, obteve 36,52. Ambas as pontuações ficaram acima da linha de base alvo e na faixa de uma tradução de alta qualidade. E houve um resultado surpreendente: o modelo foi capaz de reproduzir as nuances do gênero de cada frase do teste. Embora esse não fosse um dos objetivos do pesquisador, eles observaram no estudo que isso pode abrir possibilidades para usos além da tradução.

“Em quase todos os casos, seja [a tradução] adequada ou não, o gênero é reconhecível”, escreveu a equipe. “Um cenário futuro promissor faria com que [o modelo] mostrasse ao usuário uma lista de fontes nas quais eles basearam suas traduções, o que também seria particularmente útil para fins acadêmicos.”

A equipe publicou seus resultados no PNAS Nexus, revisado por pares. Eles também lançaram sua pesquisa e código-fonte no GitHub para o Akkademia.

Embora as tabuletas de argila e pedra resistam melhor do que o papiro aos rigores do tempo, muitas vezes ainda são encontradas fragmentadas e podem não ter um contexto crucial. (Créditos: homocosmicos/Adobe Stock)

O futuro do passado parece mais brilhante

Por mais promissores que sejam os resultados iniciais, ainda há trabalho a ser feito. Em ambos os casos, algumas das sentenças de teste foram mal traduzidas. E como outros modelos de IA, este é propenso a erros alucinados – isto é, momentos em que a resposta não tem conexão com a fonte. Em um exemplo, o tradutor humano produziu a frase “Por que deveríamos (também) conduzir o processo perante um homem de Libbi-Ali?” A tradução da IA: “Eles estão no centro da cidade no centro da cidade.” (Um pouco diferente, né?)

Ao todo, o modelo de IA funciona melhor quando está traduzindo frases curtas a médias. Também se sai melhor com gêneros mais estereotipados, como decretos reais e registros administrativos, do que com gêneros literários como mitos, hinos e profecias. Com mais treinamento em um conjunto de dados maior, observaram os pesquisadores no estudo, eles visam melhorar sua precisão. Com o tempo, eles esperam que seu modelo de IA possa atuar como um assistente virtual para estudiosos humanos. A IA pode fornecer a tradução bruta rapidamente, enquanto o estudioso pode refiná-la com seu conhecimento de línguas, culturas e pessoas históricas.

“Centenas de milhares de tabuletas de argila inscritas na escrita cuneiforme documentam a história política, social, econômica e científica da antiga Mesopotâmia. No entanto, a maioria desses documentos permanece sem tradução e inacessível devido ao seu grande número e quantidade limitada de especialistas capazes de lê-los”, escreveu a equipe no estudo.

“Este é outro grande passo para a preservação e divulgação do patrimônio cultural da antiga Mesopotâmia.”

Nova IA traduz instantaneamente tabuletas cuneiformes de 5.000 anos

Acadiano perdido (e encontrado)

IA agindo rápido para resultados instantâneos

O futuro do passado parece mais brilhante

Relacionados

ChatGPT falha diante de sinais de psicose, diz estudo

GPT-5.5 vence o Opus nos testes mais duros e muda o jogo da IA

Nova técnica mede perda de informação quântica 100 vezes mais rápido e pode ajudar a estabilizar computadores quânticos

Julio Batista