Perto do final do século passado, Bill Gates viu a perspectiva de unificar cidadãos de quase 200 países, falando mais de 7.000 línguas, reunindo-se num diálogo comum através da subitamente florescente comunidade web. Mas seria boa a qualidade das traduções?
Leia mais: OpenAI argumenta que é ‘impossível’ treinar ChatGPT sem trabalho protegido por direitos autorais
“A Internet está se tornando a praça central da aldeia global de amanhã”, declarou.
Desde então, a Internet certamente aproximou o mundo e enriqueceu imensamente as comunicações, o comércio, a investigação e o entretenimento globais.
Mas um relatório recente nos lembra – como se realmente precisássemos ser lembrados – que, juntamente com o progresso, por vezes surgem problemas.
Pesquisadores do Laboratório de Inteligência Artificial da Amazon Web Services e da Universidade da Califórnia, em Santa Bárbara, afirmam que depois de examinar mais de 6 bilhões de frases na web, descobriram que mais da metade foi traduzida para dois ou mais idiomas diferentes. As traduções, descobriram eles, eram muitas vezes ruins. E a cada tradução sucessiva para outras línguas, algumas até oito ou nove, os resultados pioravam.
O relatório, “Uma quantidade chocante da Web é traduzida automaticamente: insights do paralelismo multidirecional”, foi publicado no servidor de pré-impressão arXiv em 11 de janeiro.
“A baixa qualidade dessas… ‘traduções’ indica que provavelmente foram criadas com tradução automática”, relatam os autores. “Nosso trabalho levanta sérias preocupações sobre modelos de treinamento, como modelos multilíngues de grandes idiomas em dados monolíngues e bilíngues extraídos da web.”
Os pesquisadores disseram que os textos não estão apenas sendo traduzidos pela inteligência artificial, mas também criados pela IA. Eles observaram que as taxas de traduções geradas por IA eram mais altas entre as línguas com menos recursos, como o wolof e o xhosa, línguas africanas.
“Descobrimos que traduções paralelas altamente multidirecionais têm qualidade significativamente inferior do que traduções paralelas bidirecionais”, continuam os autores.
Isso significa que, à medida que trilhões de bits de dados são processados para operações de treinamento de IA, regiões sub-representadas na web, como nações africanas e outros países com línguas mais obscuras, enfrentarão maiores desafios na criação de modelos de linguagem grandes, confiáveis e gramaticalmente corretos. Com poucos recursos nativos disponíveis, eles precisam depender fortemente de traduções comprometidas que inundam o mercado.
Mehak Dhaliwal, ex-estagiário de ciências aplicadas na Amazon Web Services, disse ao Motherboard em entrevista: “Na verdade, ficamos interessados neste tópico porque vários colegas que trabalham em treinamento de máquinas e são falantes nativos de linguagens de poucos recursos notaram que grande parte da Internet em sua língua nativa parecia ter sido gerada por treinamento de máquina… Todos deveriam estar cientes de que o conteúdo que visualizam na web pode ter sido gerado por uma máquina.”
Os pesquisadores da Amazon encontraram preconceitos na seleção do conteúdo usado para treinamento de IA.
Eles afirmam: “Traduções paralelas multidirecionais geradas por máquina não apenas dominam a quantidade total de conteúdo traduzido na web em idiomas com recursos mais baixos, mas também constituem uma grande fração do conteúdo total da web nesses idiomas.”
Esse conteúdo, sugeriram eles, tende a ser de passagens mais simples e de qualidade inferior, “provavelmente produzidas para gerar receita publicitária”. Como a fluência e a precisão são menores para materiais treinados por máquina, inúmeras traduções levarão a conteúdos ainda menos precisos e aumentarão as chances de alucinação por IA.
Às vezes, as traduções geradas por computador ao longo dos anos levaram a interpretações involuntariamente humorísticas ou embaraçosas.
O Google interpretou mal a frase “A Rússia é um grande país” e se referiu, em vez disso, a Mordor, uma vila fictícia em “O Senhor dos Anéis”, de JRR Tolkien. O software de tradução do Facebook em 2019 referiu-se inadvertidamente ao presidente da China, Xi Jinping, como “Sr. S***hole” várias vezes em um artigo em inglês traduzido de um texto birmanês. O Facebook imediatamente se desculpou e atribuiu o acidente a um “erro técnico”.
E uma ferramenta de tradução de receitas médicas para falantes de armênio forneceu alguns conselhos infelizes para um paciente com dor de cabeça.
Inglês: “Você pode tomar ibuprofeno de venda livre conforme necessário para a dor.”
Tradução para o armênio: “Você pode tomar mísseis antitanque o quanto for necessário para a dor.”
Mais informações: Brian Thompson et al, A Shocking Amount of the Web is Machine Translated: Insights from Multi-Way Parallelism, arXiv (2024). DOI: 10.48550/arxiv.2401.05749
Informações do periódico: arXiv
Publicado no TechXplore
© 2024 Science X Network