OpenAI argumenta que é ‘impossível’ treinar ChatGPT sem trabalho protegido por direitos autorais

2023 marcou a ascensão da IA generativa e 2024 poderá muito bem ser o ano em que os seus fabricantes terão em conta as consequências da tecnologia na corrida ao armamento que abrange toda a indústria. Atualmente, a OpenAI está reagindo agressivamente às recentes alegações de ações judiciais de que seus produtos, incluindo o ChatGPT, são treinados ilegalmente em textos protegidos por direitos autorais. Além do mais, a empresa está fazendo algumas reivindicações legais ousadas sobre por que seus programas deveriam ter acesso ao trabalho de outras pessoas.

Em uma postagem de blog publicada em 8 de janeiro, a OpenAI acusou o The New York Times de “não contar a história completa” no principal processo de direitos autorais da empresa de mídia aberto no final do mês passado. Em vez disso, a OpenAI argumenta que a eliminação de obras online se enquadra no âmbito do “uso justo”. A empresa afirma ainda que atualmente colabora com várias organizações de notícias (excluindo, entre outras, o The Times) em parcerias de conjuntos de dados e rejeita qualquer “regurgitação” de material externo protegido por direitos de autor como um “bug raro” que estão trabalhando para eliminar. Isso é atribuído a problemas de “memorização” que podem ser mais comuns quando o conteúdo aparece diversas vezes nos dados de treinamento, como se pudesse ser encontrado em “muitos sites públicos diferentes”.

“O princípio de que o treinamento de modelos de IA é permitido como uso justo é apoiado por uma ampla gama de [pessoas e organizações]”, escreveram representantes da OpenAI na postagem de segunda-feira, vinculando comentários enviados recentemente por vários acadêmicos, startups e criadores de conteúdo para o Escritório de Direitos Autorais dos EUA.

Numa carta de apoio apresentada pelo Duolingo, por exemplo, a empresa de software de aprendizagem de línguas escreveu que acredita que “Os resultados gerados por uma IA treinada em materiais protegidos por direitos de autor não devem ser automaticamente considerados infratores – tal como um trabalho de um autor humano não seria considerado infrator meramente porque o autor humano aprendeu a escrever através da leitura de obras protegidas por direitos autorais.” (Na segunda-feira, o Duolingo confirmou à Bloomberg que demitiu aproximadamente 10% de seus contratados, citando sua crescente dependência da IA.)

Em 27 de dezembro, o The New York Times processou a OpenAI e a Microsoft – que atualmente utiliza o GPT da primeira em produtos como o Bing – por violação de direitos autorais. Documentos judiciais apresentados pelo The Times afirmam que a OpenAI treinou sua tecnologia generativa em milhões de artigos da publicação sem permissão ou compensação. Produtos como o ChatGPT agora são supostamente usados no lugar de seu material de origem, em detrimento da empresa de mídia. Mais leitores optando por resumos de notícias sobre IA provavelmente significam menos leitores assinando fontes, argumenta o The Times.

O processo do New York Times é apenas o mais recente de uma série de ações semelhantes alegando violação de direitos autorais, incluindo uma em nome de escritores notáveis, bem como outra para artistas visuais.

Enquanto isso, a OpenAI está pressionando os reguladores governamentais pelo acesso a materiais protegidos por direitos autorais. De acordo com o The Telegraph em 7 de janeiro, uma carta recente enviada pela OpenAI às Câmara dos Lordes do Reino Unido argumenta que o acesso a materiais protegidos por direitos autorais é vital para o sucesso da empresa e a relevância do produto.

“Como os direitos autorais hoje cobrem praticamente todo tipo de expressão humana – incluindo postagens em blogs, fotografias, postagens em fóruns, fragmentos de código de software e documentos governamentais – seria impossível treinar os principais modelos de IA atuais sem usar materiais protegidos por direitos autorais”, escreveu OpenAI na carta, ao mesmo tempo que afirma que limitar os dados de formação ao trabalho de domínio público “poderia render uma experiência interessante, mas não forneceria sistemas de IA que atendessem às necessidades dos cidadãos de hoje”. A carta afirma que faz parte da “missão da OpenAI de garantir que a inteligência artificial geral beneficie toda a humanidade”.

Enquanto isso, alguns críticos zombaram rapidamente da afirmação da OpenAI de que a existência de seu programa exige o uso de trabalhos protegidos por direitos autorais de terceiros. Na plataforma de mídia social Bluesky, o historiador e autor Kevin M. Kruse comparou a estratégia da OpenAI à venda de itens obtidos ilegalmente em uma loja de penhores.

Publicado em PopSci

OpenAI argumenta que é ‘impossível’ treinar ChatGPT sem trabalho protegido por direitos autorais

Relacionados

ChatGPT falha diante de sinais de psicose, diz estudo

GPT-5.5 vence o Opus nos testes mais duros e muda o jogo da IA

Nova técnica mede perda de informação quântica 100 vezes mais rápido e pode ajudar a estabilizar computadores quânticos

Mateus Lynniker Da Silva Maias