IA vs. Humano. No desempenho em tarefas técnicas, quem ganha?

O fosso entre o raciocínio humano e o da máquina está a diminuir — e depressa, reporta o Visual Capitalist. No ano passado, os sistemas de IA continuaram a registar avanços rápidos, superando o desempenho humano em tarefas técnicas em que antes ficavam aquém, como a matemática avançada e o raciocínio visual.

 

O Relatório do Índice de IA da Universidade de Stanford de 2025 analisa o desempenho dos sistemas de IA em relação às linhas de base humanas para oito benchmarks de IA que medem tarefas, incluindo:

  • Classificação de imagens
  • Raciocínio visual
  • Compreensão de leitura de nível médio
  • Compreensão da língua inglesa
  • Compreensão da linguagem multitarefa
  • Matemática de nível competitivo
  • Questões científicas de nível de doutoramento
  • Compreensão e raciocínio multimodal

Um benchmark de IA é um teste padronizado utilizado para avaliar o desempenho e as capacidades dos sistemas de IA em tarefas específicas.

De acordo com o relatório do Índice de IA de 2025, os modelos de IA superaram o desempenho humano em quase todas as tarefas técnicas. A única tarefa em que os sistemas de IA ainda não chegaram aos humanos é a compreensão e o raciocínio multimodais, que envolvem o processamento e o raciocínio em vários formatos e disciplinas, como imagens, gráficos e diagramas.

No entanto, a diferença está a diminuir rapidamente. Em 2024, o modelo o1 da OpenAI obteve 78,2% no MMMU, um benchmark que avalia modelos em tarefas multidisciplinares que exigem conhecimentos de nível universitário. Isto foi apenas 4,4 pontos percentuais abaixo do padrão humano de 82,6%. O modelo o1 tem também uma das mais baixas taxas de “alucinação” (ou seja, erro) entre todos os modelos de IA.

Recorde-se que, em 2023, o Google Gemini obteve apenas 59,4%, pelo que, os avanços e melhoria do desempenho da IA ​​nestas tarefas técnicas ganhou velocidade.

Ler Mais