Os novos modelos de IA têm mais probabilidade de dar uma resposta errada do que admitir que não sabem

Segundo um novo estudo publicado na revista Nature, quanto mais avançado se torna um modelo de linguagem (LLM) de IA, menor é a probabilidade de admitir que não consegue responder a uma consulta, relata a Euronews.

 

Os novos modelos de linguagem (LLMs) são menos propensos a admitir que não sabem a resposta à pergunta de um utilizador, o que os torna menos fiáveis, conclui um estudo recente.

Investigadores de Inteligência Artificial (IA) da Universitat Politècnica de València, em Espanha, testaram as mais recentes versões do BLOOM da BigScience, do Llama da Meta e do GPT da OpenAI quanto à sua precisão, colocando a cada modelo milhares de perguntas sobre matemática, ciências e geografia.

Os investigadores compararam a qualidade das respostas de cada modelo e classificaram-nas em respostas correctas, incorrectas ou evasivas.

O estudo, publicado na revista Nature, descobriu que a precisão em problemas mais desafiantes melhorou a cada novo modelo. Ainda assim, tendem a ser menos transparentes sobre se conseguiriam responder correctamente a uma questão.

Os modelos LLM anteriores diziam que não conseguiam encontrar as respostas ou que precisavam de mais informação para chegar a uma resposta, mas os novos modelos são mais propensos a adivinhar e a produzir respostas incorrectas, mesmo para perguntas fáceis.

 

Nenhuma melhoria aparente na resolução de problemas básicos

Os LLM são algoritmos de aprendizagem profunda que utilizam a IA para compreender, prever e gerar novos conteúdos com base em conjuntos de dados. Embora os novos modelos consigam resolver problemas mais complexos com maior precisão, os LLM do estudo ainda cometeram alguns erros ao responder a questões básicas.

«A fiabilidade total não é alcançada nem mesmo em níveis de dificuldade muito baixos», consta no artigo de investigação. «Embora os modelos possam resolver casos altamente desafiantes, também falham em casos muito simples.»

É o caso do GPT-4 da OpenAI, onde o número de respostas “evasivas” desceu significativamente em relação ao modelo anterior, GPT-3.5. «Isto não corresponde à expectativa de que os LLM mais recentes evitariam com maior sucesso responder fora do seu intervalo operacional», disseram os autores do estudo. Os investigadores concluíram então que «não há melhoria aparente» nos modelos, embora a tecnologia tenha sido ampliada.

Ler Mais