À medida que a inteligência artificial (IA) atinge o auge da sua popularidade, os pesquisadores alertam que a indústria pode estar ficando sem dados de formação – o combustível que alimenta poderosos sistemas de IA.
Leia também Físicos simularam um buraco negro em laboratório
Isto poderia desacelerar o crescimento dos modelos de IA, especialmente modelos de linguagem de grande porte, e pode até alterar a trajetória da revolução da IA.
Mas por que a potencial falta de dados é um problema, considerando quantos existem na web? E existe uma maneira de lidar com o risco?
Por que dados de alta qualidade são importantes para a IA
Precisamos de muitos dados para treinar algoritmos de IA poderosos, precisos e de alta qualidade. Por exemplo, o ChatGPT foi treinado em 570 gigabytes de dados de texto, ou cerca de 300 bilhões de palavras.
Da mesma forma, o algoritmo de difusão estável (que está por trás de muitos aplicativos de geração de imagens de IA, como DALL-E, Lensa e Midjourney) foi treinado no conjunto de dados LIAON-5B, composto por 5,8 bilhões de pares de imagem-texto. Se um algoritmo for treinado com uma quantidade insuficiente de dados, ele produzirá resultados imprecisos ou de baixa qualidade.
A qualidade dos dados de treinamento também é importante. Dados de baixa qualidade, como publicações em redes sociais ou fotografias desfocadas, são fáceis de obter, mas não são suficientes para treinar modelos de IA de alto desempenho.
O texto retirado de plataformas de redes sociais pode ser tendencioso ou preconceituoso, ou pode incluir desinformação ou conteúdo ilegal que pode ser replicado pelo modelo. Por exemplo, quando a Microsoft tentou treinar o seu bot de IA usando conteúdo do Twitter, aprendeu a produzir resultados racistas e misóginos.
É por isso que os desenvolvedores de IA buscam conteúdo de alta qualidade, como textos de livros, artigos online, artigos científicos, Wikipedia e determinados conteúdos filtrados da web. O Google Assistente foi treinado em 11.000 romances retirados do site de publicação independente Smashwords para torná-lo mais coloquial.
Temos dados suficientes?
A indústria de IA tem treinado sistemas de IA em conjuntos de dados cada vez maiores, e é por isso que agora temos modelos de alto desempenho, como ChatGPT ou DALL-E 3. Ao mesmo tempo, pesquisas mostram que os estoques de dados online estão crescendo muito mais lentamente do que os conjuntos de dados usados para treinar IA.
Num artigo publicado no ano passado, um grupo de investigadores previu que ficaremos sem dados de texto de alta qualidade antes de 2026 se as atuais tendências de formação em IA continuarem. Eles também estimaram que os dados linguísticos de baixa qualidade se esgotarão em algum momento entre 2030 e 2050, e os dados de imagens de baixa qualidade entre 2030 e 2060.
A IA poderá contribuir com até 15,7 biliões de dólares (24,1 biliões de dólares australianos) para a economia mundial até 2030, de acordo com o grupo de contabilidade e consultoria PwC. Mas ficar sem dados utilizáveis pode atrasar o seu desenvolvimento.
Deveríamos ficar preocupados?
Embora os pontos acima possam alarmar alguns fãs de IA, a situação pode não ser tão ruim quanto parece. Existem muitas incógnitas sobre como os modelos de IA se desenvolverão no futuro, bem como algumas formas de enfrentar o risco de escassez de dados.
Uma oportunidade é que os desenvolvedores de IA melhorem os algoritmos para que possam usar os dados que já possuem com mais eficiência.
É provável que nos próximos anos eles consigam treinar sistemas de IA de alto desempenho usando menos dados e possivelmente menos poder computacional. Isto também ajudaria a reduzir a pegada de carbono da IA.
Outra opção é usar IA para criar dados sintéticos para treinar sistemas. Em outras palavras, os desenvolvedores podem simplesmente gerar os dados de que precisam, selecionados para se adequarem ao seu modelo de IA específico.
Vários projetos já utilizam conteúdo sintético, muitas vezes proveniente de serviços de geração de dados, como o Mostly AI. Isso se tornará mais comum no futuro.
Os desenvolvedores também procuram conteúdo fora do espaço online gratuito, como aquele mantido por grandes editoras e repositórios offline. Pense nos milhões de textos publicados antes da internet. Disponibilizados digitalmente, poderão fornecer uma nova fonte de dados para projetos de IA.
A News Corp, uma das maiores proprietárias de conteúdo de notícias do mundo (que tem grande parte de seu conteúdo protegido por acesso pago), disse recentemente que estava negociando acordos de conteúdo com desenvolvedores de Inteligência Artificial. Tais acordos forçariam as empresas de Inteligência Artificial a pagar por dados de treinamento – embora até agora, em sua maioria, eles tenham sido retirados da Internet gratuitamente.
Os criadores de conteúdo protestaram contra o uso não autorizado de seu conteúdo para treinar modelos de IA, com alguns processando empresas como Microsoft, OpenAI e Stability AI. Ser remunerado pelo seu trabalho pode ajudar a restaurar parte do desequilíbrio de poder que existe entre os criativos e as empresas de Inteligência Artificial.
Traduzido por Mateus Lynniker de ScienceAlert