
IA vs. Humano. No desempenho em tarefas técnicas, quem ganha?
O fosso entre o raciocínio humano e o da máquina está a diminuir — e depressa, reporta o Visual Capitalist. No ano passado, os sistemas de IA continuaram a registar avanços rápidos, superando o desempenho humano em tarefas técnicas em que antes ficavam aquém, como a matemática avançada e o raciocínio visual.
O Relatório do Índice de IA da Universidade de Stanford de 2025 analisa o desempenho dos sistemas de IA em relação às linhas de base humanas para oito benchmarks de IA que medem tarefas, incluindo:
- Classificação de imagens
- Raciocínio visual
- Compreensão de leitura de nível médio
- Compreensão da língua inglesa
- Compreensão da linguagem multitarefa
- Matemática de nível competitivo
- Questões científicas de nível de doutoramento
- Compreensão e raciocínio multimodal
Um benchmark de IA é um teste padronizado utilizado para avaliar o desempenho e as capacidades dos sistemas de IA em tarefas específicas.
De acordo com o relatório do Índice de IA de 2025, os modelos de IA superaram o desempenho humano em quase todas as tarefas técnicas. A única tarefa em que os sistemas de IA ainda não chegaram aos humanos é a compreensão e o raciocínio multimodais, que envolvem o processamento e o raciocínio em vários formatos e disciplinas, como imagens, gráficos e diagramas.
No entanto, a diferença está a diminuir rapidamente. Em 2024, o modelo o1 da OpenAI obteve 78,2% no MMMU, um benchmark que avalia modelos em tarefas multidisciplinares que exigem conhecimentos de nível universitário. Isto foi apenas 4,4 pontos percentuais abaixo do padrão humano de 82,6%. O modelo o1 tem também uma das mais baixas taxas de “alucinação” (ou seja, erro) entre todos os modelos de IA.
Recorde-se que, em 2023, o Google Gemini obteve apenas 59,4%, pelo que, os avanços e melhoria do desempenho da IA nestas tarefas técnicas ganhou velocidade.