A Microsoft lançou recentemente uma nova versão de todos os seus softwares com a adição de um assistente de Inteligência Artificial (IA) que pode executar uma variedade de tarefas para você.
O Copilot pode resumir conversas verbais em reuniões online do Teams, apresentar argumentos a favor ou contra um ponto específico com base em discussões verbais e responder a uma parte de seus e-mails. Ele pode até mesmo escrever códigos de programação.
Essa tecnologia em rápido desenvolvimento parece nos aproximar ainda mais de um futuro em que a IA facilita nossas vidas e elimina todas as tarefas chatas e repetitivas que temos que fazer como seres humanos.
Mas, embora esses avanços sejam todos muito impressionantes e úteis, devemos ser cautelosos no uso de Modelos de Linguagem de Grande Escala (LLMs). Apesar de sua natureza intuitiva, eles ainda exigem habilidade para serem usados de forma eficaz, confiável e segura.
Inteligência Artificial: modelos de linguagem de grande escala
LLMs, um tipo de rede neural de “aprendizagem profunda”, são projetados para entender a intenção do usuário analisando a probabilidade de diferentes respostas com base no prompt fornecido. Assim, quando uma pessoa insere um prompt, o LLM examina o texto e determina a resposta mais provável.
O ChatGPT, um exemplo proeminente de LLM, pode fornecer respostas a solicitações sobre uma ampla gama de assuntos. No entanto, apesar de suas respostas aparentemente conhecedoras, o ChatGPT não possui conhecimento real. Suas respostas são simplesmente os resultados mais prováveis com base no prompt fornecido.
Quando as pessoas fornecem ao ChatGPT, Copilot e outros LLMs descrições detalhadas das tarefas que desejam realizar, esses modelos podem se destacar no fornecimento de respostas de alta qualidade. Isso pode incluir a geração de texto, imagens ou códigos de programação.
Mas, como seres humanos, muitas vezes ultrapassamos os limites do que a tecnologia pode fazer e para o que foi originalmente projetada. Consequentemente, começamos a usar esses sistemas para fazer o trabalho braçal que deveríamos ter feito nós mesmos.
Por que a dependência excessiva da IA pode ser um problema
Apesar de suas respostas aparentemente inteligentes, não podemos confiar cegamente nos LLMs para serem precisos ou confiáveis. Devemos avaliar e verificar cuidadosamente seus resultados, garantindo que nossos prompts iniciais sejam refletidos nas respostas fornecidas.
Para verificar e validar efetivamente os resultados dos LLMs, precisamos ter um forte entendimento do assunto. Sem conhecimento, não podemos fornecer a garantia de qualidade necessária.
Isso se torna particularmente crítico em situações onde estamos usando LLMs para preencher lacunas em nosso próprio conhecimento. Aqui, nossa falta de conhecimento pode nos levar a uma situação em que somos simplesmente incapazes de determinar se o resultado está correto ou não. Essa situação pode surgir na geração de texto e codificação.
Usar a IA para participar de reuniões e resumir as discussões apresenta riscos óbvios de confiabilidade.
Embora o registro da reunião seja baseado em uma transcrição, as anotações da reunião ainda são geradas da mesma forma que outros textos dos LLMs. Elas são baseadas em padrões de linguagem e probabilidades do que foi dito, portanto exigem verificação antes de poderem ser utilizadas.
Elas também sofrem com problemas de interpretação devido a homófonos, palavras que são pronunciadas da mesma forma, mas têm significados diferentes. As pessoas são boas em entender o que se quer dizer nessas circunstâncias devido ao contexto da conversa.
Mas a IA não é boa em deduzir contexto nem entende nuances. Assim, esperar que ela formule argumentos com base em uma transcrição potencialmente errônea ainda apresenta outros problemas.
A verificação é ainda mais difícil se estivermos usando a IA para gerar códigos de programação. Testar o código de programação com dados de teste é o único método confiável para validar sua funcionalidade. Embora isso demonstre que o código opera como pretendido, não garante que seu comportamento esteja alinhado com as expectativas do mundo real.
Suponha que usamos a IA generativa para criar código para uma ferramenta de análise de sentimentos. O objetivo é analisar avaliações de produtos e categorizar os sentimentos como positivos, neutros ou negativos. Podemos testar a funcionalidade do sistema e validar se o código funciona corretamente – que está tecnicamente correto do ponto de vista da programação.
No entanto, imagine que implantamos esse software no mundo real e ele começa a classificar avaliações sarcásticas de produtos como positivas. O sistema de análise de sentimentos não possui o conhecimento contextual necessário para entender que o sarcasmo não é usado como feedback positivo, e sim o contrário.
Verificar se a saída de um código corresponde aos resultados desejados em situações com nuances como essa exige expertise.
Pessoas que não trabalham com programação não possuem conhecimento sobre princípios de engenharia de software usados para assegurar que um código esteja correto, como planejamento, metodologia, teste e documentação. A programação é uma disciplina complexa, e a engenharia de software surgiu como um campo para gerenciar a qualidade do software.
Existe um risco significativo, como minha própria pesquisa mostrou, de que não especialistas ignorem ou negligenciem etapas críticas no processo de design de software, resultando em código de qualidade desconhecida.
Validação e verificação
LLMs como ChatGPT e Copilot são ferramentas poderosas das quais todos podemos nos beneficiar. Mas devemos ter cuidado para não confiar cegamente nos resultados fornecidos.
Estamos no início de uma grande revolução baseada nessa tecnologia. A IA tem infinitas possibilidades, mas precisa ser moldada, verificada e validada. E, atualmente, os seres humanos são os únicos capazes de fazer isso.
O artigo foi publicado originalmente por Simon Thorne no The Conversation.