Quando você conversar com alguém hoje, preste atenção nos momentos naturais em que a troca de falas deixa espaço para a outra pessoa intervir. Se a entrada dela não for no momento certo, poderá parecer agressiva demais, tímida ou simplesmente estranha. Esse processo de revezamento é um aspecto essencial da interação social nas conversas, mas, enquanto os humanos geralmente o realizam de forma natural, os sistemas de inteligência artificial (IA) ainda têm dificuldades notáveis nesse aspecto.
Pesquisadores das áreas de linguística e ciência da computação da Universidade de Tufts identificaram algumas das causas principais dessas falhas nos sistemas de IA, sugerindo caminhos para aprimorar suas habilidades de conversa. O estudo está sendo apresentado na conferência Empirical Methods in Natural Language Processing (EMNLP 2024), que está acontecendo em Miami desde o dia 12 até o dia 16 de novembro, e foi publicado no servidor de pré-impressão arXiv.
Durante interações humanas, é comum evitarmos falar simultaneamente, alternando os papéis de quem fala e quem ouve. Essa dinâmica é mediada pelo que os linguistas chamam de “pontos relevantes de transição” (TRPs), momentos que indicam quando é apropriado alguém intervir. Embora as pessoas frequentemente deixem esses pontos passarem para que o falante continue, também os utilizam para contribuir com seus próprios pensamentos. Segundo JP de Ruiter, professor da Tufts, acreditava-se que as informações “paraverbais”, como entonações, pausas e gestos, fossem os principais sinais para identificar esses momentos.
Contudo, estudos recentes sugerem que o conteúdo linguístico é mais determinante. Experimentos mostraram que, ao remover informações paraverbais, como entonação e ritmo, as pessoas ainda conseguem identificar a maioria dos TRPs, desde que o conteúdo esteja presente. Por outro lado, ao oferecer apenas a prosódia sem o conteúdo, as pessoas perdem a capacidade de reconhecer esses pontos com precisão.
Embora a IA seja excepcional na identificação de padrões em textos, quando pesquisadores testaram modelos de linguagem avançados, como o ChatGPT, eles descobriram que esses sistemas têm um desempenho muito inferior aos humanos na identificação de TRPs. Isso ocorre porque os modelos são treinados principalmente com dados escritos retirados da internet, como entradas da Wikipedia e artigos de notícias. Esses dados carecem de exemplos significativos de conversas faladas, que têm características específicas, como frases mais curtas e vocabulário mais simples.
Os pesquisadores tentaram ajustar modelos de IA com conjuntos de dados de conversas transcritas, mas ainda enfrentaram limitações. Eles sugerem que pode haver uma barreira fundamental, já que a alternância de falas exige uma compreensão mais profunda do contexto, algo que a IA atualmente não atinge. Além disso, a coleta de grandes volumes de dados de linguagem falada natural continua sendo um grande desafio, dado que a maioria do conteúdo disponível é escrito. Embora novas abordagens estejam sendo exploradas, ainda há um longo caminho para que a IA consiga replicar uma conversa humana de forma convincente.