Modelos de linguagem de IA mais compactos podem ser usados de forma eficiente em dispositivos como celulares e laptops, segundo pesquisadores da Universidade de Princeton e da Stanford Engineering. A proposta aborda a crescente demanda por modelos de linguagem natural (LLMs) que automatizam tarefas como tradução e classificação de texto. Tradicionalmente, esses modelos exigem o envio de requisições para servidores centrais, um processo custoso, intensivo em energia e, por vezes, lento.
A novidade apresentada envolve uma técnica de compressão que reduz significativamente a quantidade de dados processados pelos LLMs. Essa abordagem promove maior privacidade, economia de energia e custos mais baixos, tornando possível armazenar e acessar modelos diretamente em dispositivos locais. O método, chamado CALDERA, combina propriedades de “baixa precisão” e “baixa redundância” para comprimir os modelos de IA sem perder sua eficácia.
Ao ajustar os modelos para que utilizem menos bits no armazenamento e processamento de informações, o novo método acelera essas operações e melhora a eficiência energética da IA. Além disso, ao reduzir redundâncias nas matrizes de pesos, que representam padrões linguísticos aprendidos pelos LLMs, é possível compactar os modelos ainda mais do que técnicas anteriores permitiam. Essa inovação foi testada em modelos de código aberto, como Llama 2 e 3, demonstrando um ganho de até 5% em métricas importantes.
Os pesquisadores também avaliaram os modelos comprimidos em tarefas de referência, como ordenar logicamente declarações ou responder perguntas envolvendo raciocínio físico. A compressão, embora não seja ideal para aplicações que demandam alta precisão, mostrou-se promissora em situações de uso cotidiano, em que a leveza do processamento pode ser priorizada. Essa abordagem permite ainda personalizar os modelos em dispositivos individuais sem necessidade de compartilhar dados sensíveis com terceiros.
Outro ponto destacado é a capacidade de reduzir riscos relacionados a violações de privacidade, já que os modelos podem ser ajustados localmente. No entanto, o uso de LLMs comprimidos em dispositivos como smartphones ainda enfrenta desafios, como o consumo intensivo de memória e bateria. Isso evidencia a necessidade de otimizações contínuas para alcançar o equilíbrio entre eficiência e desempenho.
Embora a técnica não resolva todos os problemas relacionados ao uso de modelos em dispositivos móveis, combina avanços recentes de maneira eficiente. Segundo os pesquisadores, integrar essa solução a outras abordagens existentes pode abrir caminho para o uso mais acessível e sustentável de LLMs em sistemas de menor capacidade computacional.