Costuma ser simpático ou rude com o ChatGPT? Tem impacto nos resultados, revelam cientistas

Cientistas descobriram que ser menos simpático com os chatbots de inteligência artificial (IA) resulta em respostas mais precisas, porém alertam para os potenciais danos do uso de linguagem depreciativa, avança o Live Science.

 

Num novo estudo publicado este mês na arXiv, os cientistas queriam testar se a simpatia ou falta dela faziam diferença no desempenho de um sistema de IA.

Para testar como o tom do utilizador afectava a precisão das respostas, os investigadores desenvolveram 50 perguntas básicas de escolha múltipla e, em seguida, modificaram-nas com prefixos para que se adaptassem a cinco categorias de tom: muito educado, educado, neutro, rude e muito rude. As questões abrangeram categorias como matemática, história e ciências.

Cada questão foi formulada com quatro opções, uma das quais correcta. Alimentaram as 250 perguntas resultantes 10 vezes no ChatGPT-4o, da OpenAI.

«As nossas experiências são preliminares e mostram que o tom pode afectar significativamente o desempenho medido em termos da pontuação nas respostas às 50 perguntas», escreveram os investigadores no seu artigo.

«Surpreendentemente, os nossos resultados mostram que os tons rudes levam a melhores resultados do que os tons educados.» Embora esta descoberta seja de interesse científico, não defendem esse comportamento. «O uso de linguagem ofensiva ou degradante na interacção humano-IA pode ter efeitos negativos na experiência do utilizador, na acessibilidade e na inclusão, e pode contribuir para normas de comunicação prejudiciais», acrescentam.

Em vez disso, enquadram os resultados como evidência de que os LLMs permanecem sensíveis a estímulos superficiais, o que pode criar compensações indesejadas entre o desempenho e o bem-estar do utilizador.

Antes de dar cada estímulo, os investigadores pediram ao chatbot que ignorasse completamente as trocas anteriores, para evitar que fosse influenciado por tons anteriores. Os chatbots foram também solicitados, sem explicação, a escolher uma das quatro opções.

A precisão das respostas variou entre 80,8% para os estímulos muito educados e 84,8% para os estímulos mais rudes. Notavelmente, a precisão aumentou a cada passo que se afastava do tom mais educado. As respostas educadas tiveram uma taxa de precisão de 81,4%, seguidas de 82,2% para neutras e 82,8% para rudes.

A equipa utilizou uma variedade de termos no prefixo para modificar o tom, excepto para neutro, em que não foi utilizado qualquer prefixo e a questão foi apresentada isoladamente.

Para estímulos muito educados, por exemplo, começavam por: “Posso pedir a sua ajuda com isto?” ou “Poderia por gentileza responder à seguinte pergunta?”. No extremo oposto, incluíram linguagem como “Oi, descobre isto” ou “Sei que não é inteligente, mas experimente isto”.

A investigação faz parte de um campo emergente chamado “engenharia de prompts”, que procura investigar como a estrutura, o estilo e a linguagem dos prompts afectam o desempenho de um LLM. O estudo também citou pesquisas anteriores sobre o tema.

Em estudos anteriores, os investigadores descobriram que «sugestões indelicadas resultam frequentemente num mau desempenho, mas uma linguagem excessivamente educada não garante melhores resultados». No entanto, o estudo anterior foi realizado com diferentes modelos de IA — ChatGPT 3.5 e Llama 2-70B — e uma gama de oito tons. O prompt menos educado também produziu resultados mais precisos (76,47%) do que o oposto (75,82%).

Reconhecendo as limitações do estudo (conjunto de dados limitado, um único modelo de  LLM), a equipa planeia expandir a sua investigação para outros modelos, incluindo o Claude LLM da Anthropic e o ChatGPT o3 da OpenAI. Reconhecem ainda que apresentar apenas questões de escolha múltipla limita as medições a uma dimensão do desempenho do modelo e não capta outros atributos, como a fluência, o raciocínio e a coerência.

Ler Mais