Investigadores da Universidade do Colorado (UC) descobriram que os chatbots são muito bons a fazer umas coisas – como escrever um mail ou criar imagens – mas há outras que nem por isso, revela a CNet. Resolver um sudoku com vários níveis de dificuldade é um exemplo.
Outra descoberta mais importante surgiu quando os modelos de linguagem (LLM) foram solicitados a mostrar o seu trabalho. Na maioria das vezes, não conseguiam. Às vezes, mentiam. Por vezes, explicavam as coisas de formas que não faziam sentido. Por vezes tinham alucinações e começavam a falar sobre o tempo.
Se as ferramentas de IA generativa não conseguem explicar as suas decisões com precisão ou transparência, deve haver prudência no poder e controlo que se lhes dá sobre muitas decisões, disse Ashutosh Trivedi, professor de Informática na Universidade do Colorado e um dos autores do artigo publicado em Julho na revista “Findings of the Association for Computational Linguistics”.
«Gostaríamos que essas explicações fossem transparentes e reflectissem o motivo pelo qual a IA tomou essa decisão, não que a IA tentasse manipular o ser humano dando uma explicação que esse humano possa gostar.»
Outros estudos recentes descobriram que os LLM “alucinam” em parte porque os seus procedimentos de treino os encoraja a produzir resultados que o utilizador irá gostar, em vez do que é exacto, ou que as pessoas que utilizam LLM para as ajudar a escrever composições têm menos probabilidade de se lembrar do que escreveram. À medida que a IA generativa se torna cada vez mais parte do quotidiano, as implicações de como esta tecnologia funciona e como os humanos se comportam ao utilizá-la tornam-se muito importantes.
Quando uma pessoa toma um decisão, é possível justificá-la ou, pelo menos, explicar como chegou até ela. Um modelo de IA pode não ser capaz de fazer o mesmo com precisão ou transparência. Confiaria nele?
Porque é que os LLM têm dificuldades com o sudoku
Estas ferramentas falham em jogos básicos, por causa da forma como os LLM funcionam e preenchem as lacunas de informação. Estes modelos tentam fazê-lo com base no que acontece em casos semelhantes nos seus dados de treino ou noutros exemplos que já viram no passado.
Com um sudoku, a questão é lógica. A IA pode tentar preencher cada espaço por ordem, com base no que parece ser uma resposta razoável, mas, para o resolver correctamente, precisa de analisar o cenário completo e encontrar uma ordem lógica que mude de puzzle para puzzle.
Os chatbots são maus no xadrez por um motivo semelhante. Encontram os próximos movimentos lógicos, mas não pensam necessariamente três, quatro ou cinco movimentos à frente — a capacidade fundamental necessária para jogar bem xadrez. Os chatbots também tendem a mover peças de xadrez de formas que não seguem as regras ou colocam peças em risco sem qualquer sentido.
Seria expectável que os LLM fossem capazes de resolver sudoku porque são computadores e o puzzle consiste em números, mas os puzzles em si não são realmente matemáticos; são simbólicos. «O sudoku é famoso por ser um puzzle com números que pode ser feito com qualquer coisa que não seja um número», disse Fabio Somenzi, professor da UC e um dos autores do artigo de investigação.
Os investigadores do Colorado não quiseram apenas verificar se os robôs conseguiam resolver sudokus e pediram que explicassem como é que os robôs chegavam às soluções. As coisas não correram bem.
Ao testar o modelo de raciocínio o1-preview da OpenAI, os investigadores observaram que as respostas — mesmo para puzzles resolvidos correctamente — não explicavam nem justificavam com precisão os seus movimentos e apresentavam erros em termos básicos.
«Uma coisa em que eles são bons é a fornecer explicações aparentemente razoáveis», disse Maria Pacheco, professora assistente de Informática na UC. «Alinham-se com os humanos, por isso aprendem a falar como gostamos, mas é nos passos necessários para resolver o problema que surgem algumas dificuldades.» E algumas explicações eram completamente irrelevantes.
Desde que o paper foi publicado, os investigadores continuaram a testar os novos modelos lançados. Somenzi revelou que, quando ele e Trivedi estavam a efectuar os mesmos testes no modelo de raciocínio o4 da OpenAI, a dada altura, pareceu simplesmente desistir. «À pergunta seguinte que fizemos, a resposta foi a previsão do tempo para Denver.»
Quando se resolve um puzzle, é quase certo conseguir orientar outra pessoa no raciocínio usado. O facto de estes LLM terem falhado nesta tarefa básica é sinal de alarme. Com as empresas de IA a falarem constantemente sobre “agentes de IA” que podem agir em seu nome, ser capaz de se explicar é fundamental.
Considere os tipos de tarefas que estão a ser atribuídas à IA agora ou planeadas para um futuro próximo: conduzir, tratar dos impostos, decidir estratégias de negócio e traduzir documentos importantes. Pense no que acontece quando um ser humano falha nessas coisas. «Quando os humanos precisam de assumir e justificar as suas decisões, é bom que sejam capazes de explicar o que os levou a essa decisão», disse Somenzi.
Não se trata apenas de ter uma resposta que pareça razoável, tem de ser exacta e precisa. Imaginando que, um dia, a explicação de uma IA sobre si própria poderá ter de ser aceite em tribunal, como pode o seu testemunho ser levado a sério se é sabido que mente?














