Já há um modelo de linguagem de IA português (tem nome e tudo!). A versão final é lançada em 2026
O grande modelo de linguagem (LLM) de inteligência artificial (IA) português vai chamar-se Amália e a sua versão final será lançada em 2026, avança, em entrevista à Lusa, o presidente executivo (CEO) do Centro para a AI Responsável.
Na noite de abertura da Web Summit, o primeiro-ministro anunciou o lançamento, no primeiro trimestre do próximo ano, de um LLM (‘Large Language Model’) em português.
O projecto envolve o Centro para a AI Responsável, da qual Paulo Dimas é CEO, e os centros de investigação, a Nova FCT e o Instituto Superior Técnico.
A primeira versão «não será uma versão perfeita», mas antes «beta, inicial, para começar a ter feedback e, ao longo do tempo, vai sendo melhorada», diz Paulo Dimas, adiantando que se trata de «um projecto a 19 meses».
A versão final «será lançada só em 2026», acrescenta.
Os três pontos fundamentais deste projecto são a variante linguística – português de Portugal -, a representatividade cultural e a protecção de dados, aponta.
Paulo Dimas salienta que, tal como Luís Montenegro afirmou, vai estar pronto «no primeiro trimestre» de 2025.
«Vamos estar a trabalhar em cima de trabalho já desenvolvido por estes centros de investigação: portanto, há trabalho de vários anos nesta área, tanto na área dos dados para a língua portuguesa, trabalho feito pelo centro de investigação da Nova Faculdade de Ciências e Tecnologia (FCT), há trabalho feito também no âmbito do Técnico» e «também há trabalho que vai ser transferido do lado da Unbabel, por toda a experiência» que a tecnológica «tem a criar modelos multilíngue e modelos que estão sendo, neste momento, treinados em supercomputadores», diz.
Em suma, «a equipa que vai estar a trabalhar na criação deste LLM é uma equipa que já tem muitos anos de experiência nesta área», sublinha Paulo Dimas.
Em cima deste trabalho «é possível entregar este LLM no primeiro trimestre» e «a isso junta-se uma colaboração muito estreita com a Fundação para a Ciência e Tecnologia, que criou condições a nível de computação», essencial para este tipo de modelos de grande escala.
«E a Fundação para a Ciência e Tecnologia tem vindo a investir em capacidade computacional que vai ser usada aqui», já que «na prática vamos utilizar (…) um computador que está em Barcelona, mas que parte dele é português», prossegue.
Ou seja, «temos um computador português que fisicamente está em Barcelona, mas uma percentagem é do Estado português», sintetiza.
Agora, se «estivéssemos a treinar isto, por exemplo, numa cloud da Microsoft, da Google, da Amazon, isto ia ter um custo altíssimo, mas como vamos estar a usar este recurso nacional, vai ser feito de uma forma muito mais eficiente do ponto de vista financeiro», explica.
Questionado o que é que o LLM português representa para si, Paulo Dimas classifica de «peça-chave no ecossistema nacional de inteligência artificial».
Isto porque «em cima deste LLM vai ser possível criar novas aplicações de inteligência artificial onde a língua portuguesa está preservada, onde nós temos controlo sobre a língua portuguesa», destaca.
Paulo Dimas, que também é vice-presidente de inovação da Unbabel, dá o exemplo de um produto que considera um dos «mais emocionais» que já desenvolveu na sua vida profissional, o Halo.
Desenvolvido pela equipa da Unbabel, este projecto permite «recuperar a capacidade de comunicação de doentes que sofrem de Esclerose Lateral Amiotrófica [ELA]», já que estes perdem a capacidade de escrever e falar porque têm uma incapacidade muscular geral.
«A única forma de voltarem a comunicar com as pessoas de quem gostam mais, com a família, com os cuidadores, é através de tecnologia de comunicação alternativa e aumentativa. Nós, com a inteligência artificial, conseguimos clonar a voz de pacientes» e «já estamos a trabalhar com pacientes de ELA que voltaram a falar», relata.
Contudo, «essa fala resulta de texto que muitas vezes é produzido na variante falada no Brasil», o que «não é nada natural».
Mas, a partir do momento em que «tivermos o Amália, que vai ser o nome que vai ser dado ao LLM, um nome inspirado numa figura muito importante na nossa história, vamos poder controlar aquilo que é dito nestas conversas».
Desta forma, os doentes vão poder falar em português falado em Portugal e isso «é uma peça fundamental», mas mais do que isso, «é uma peça transversal à Administração Pública», diz.
Porque «podemos, por exemplo, trabalhar em cima deste modelo na área da educação e fazer com que as nossas crianças aprendam nas escolas com um tutor personalizado que sabe o currículo educativo nacional». Em suma, o uso do LLM Amália «é completamente transversal».
Por outro lado, «dá autonomia tecnológica, permite-nos que possamos ir melhorando o modelo ao longo do tempo, nomeadamente ao nível da introdução do sistema multimodalidade, que é acrescentar também imagem, acrescentar depois no futuro também, eventualmente, fala», acrescenta.
Trata-se de «um recurso tecnológico nacional que é transversal a todas as áreas da nossa sociedade, da investigação e das startups», sublinha.
E também «vai ser uma peça importante para as startups. Ela, no princípio, não vai falar», mas «temos uma Amália a escrever português correto, português falado em Portugal e uma base para a tal representatividade cultural» e, «definitivamente, conhecer mais sobre a cultura portuguesa».
Também na Administração Pública o LLM Amália vai ter uma «peça muito importante», da educação à inovação e para o «desenvolvimento da inteligência artificial em Portugal».
Um parceiro «muito importante» nesta iniciativa «vai ser a Agência para a Modernização Administrativa, a AMA», porque vai ser a forma de «transpor este LLM, esta tecnologia, para a Administração Pública».
No fundo, «é um exemplo de uma parceria que junta centros de investigação e junta a Administração Pública» e que «também parte do know-how desenvolvido em startups nacionais como a Unbable», com o Centro para a IA responsável como dinamizador destas colaborações, remata.