Google Tradutor está a implementar 110 novos idiomas. E o português (de Portugal) é um deles
A Google anunciou que está a implementar 110 novos idiomas no Google Tradutor, ferramenta de tradução da tecnológica, sendo a «maior expansão de todos os tempos», e que inclui o português de Portugal.
Em 2022, a Google tinha adicionado 24 novos idiomas utilizando a tradução automática zero-shot, onde um modelo de aprendizagem de máquina aprende a traduzir para outro idioma sem nunca ver um exemplo e anunciou «a Iniciativa 1000 Línguas, um compromisso para construir modelos de IA [inteligência artificial] que vão oferecer suporte aos 1000 idiomas mais falados no mundo», recorda a Google.
«Agora, estamos a usar a IA para expandir a variedade de idiomas suportados» e, «graças ao nosso grande modelo de linguagem PaLM 2, estamos a começar a implementar 110 novos idiomas no Google Tradutor, a nossa maior expansão de todos os tempos, incluindo o português de Portugal», refere, numa publicação online.
Ou seja, o Google Tradutor vai passar a distinguir as variantes do português (Portugal versus Brasil).
«Do cantonês ao Q eqchi, estas novas línguas representam mais de 614 milhões de falantes, permitindo traduções para cerca de 8% da população mundial», refere a Google.
Cerca de um quarto das novas línguas «são de África e representam a nossa maior expansão de línguas africanas até à data, incluindo Fon, Kikongo, Luo, Ga, Swati, Venda e Wolof», adianta.
Entre os idiomas que agora passam a ser suportados no Google Tradutor estão o afar, uma língua tonal falada no Djibouti, Eritreia e Etiópia. «De todos os idiomas neste lançamento, afar teve o maior número de contribuições voluntárias da comunidade», sublinha.
Depois, o cantonês, que era há muito «um dos idiomas mais solicitados no Google Tradutor», prossegue.
Outros exemplos são o manx, língua celta da Ilha de Man, que foi quase extinta com a morte do seu último falante nativo em 1974, mas «graças a um movimento de renascimento em toda a ilha, existem agora milhares de falantes», e o nko, uma forma padronizada das línguas Manding da África Ocidental que unifica muitos dialetos numa língua comum.
«O seu alfabeto único foi inventado em 1949 e possui uma comunidade de pesquisa activa que hoje desenvolve recursos e tecnologia para ele», refere a Google, na sua publicação.
Há ainda o punjabi (Shahmukhi), variedade do punjabi escrito na escrita perso-árabe (Shahmukhi) e é a língua mais falada no Paquistão, o tamazight, língua berbere falada no Norte da África, e o tok pisin, um «crioulo de origem inglesa e a língua franca da Papua Nova Guiné».
As línguas «têm uma imensa variação: variedades regionais, dialetos, diferentes padrões ortográficos» e, na verdade, «muitos idiomas não possuem um formato padrão, por isso é impossível escolher a variedade certa».
Mas «a nossa abordagem tem sido priorizar as variedades mais usadas comummente em cada idioma», adianta.
«O PaLM 2 foi uma peça-chave neste puzzle, ajudando o Tradutor a aprender com mais eficiência idiomas intimamente relacionados entre si, incluindo idiomas próximos do hindi, como awadhi e marwadi, e os crioulos franceses, como o crioulo das Seicheles e o crioulo das Maurícias», explica.
E à medida que a tecnologia evoluiu «e continuamos a fazer parcerias com linguistas especializados e falantes nativos, apoiaremos, ao longo do tempo, ainda mais variedades linguísticas e convenções ortográficas».