Nova IA da Meta traduz fala em dezenas de idiomas
Batizada SeamlessM4T, a IA tem a habilidade de realizar traduções entre texto e fala em quase 100 idiomas distintos.
Os fãs da série “O Guia do Mochileiro das Galáxias” sempre sonharam com o Babel Fish, peixe que pode traduzir instantaneamente qualquer linguagem. A Meta, empresa-mãe do Facebook, agora quer usa IA (inteligência artificial) para tornar isso uma realidade.
A Meta anunciou na última semana um lançamento de um novo modelo de IA que seria capaz de traduzir e transcrever fala em dezenas de idiomas. Isso pode abrir o caminho para ferramentas que viabilizam comunicação em tempo real entre diferentes línguas.
Batizada SeamlessM4T, a IA tem a habilidade de realizar traduções entre texto e fala em quase 100 idiomas distintos. Além disso, ele oferece uma tradução completa de fala para fala em 35 idiomas.
A Meta explica que reúne tecnologias que até então estavam restritas a modelos individuais. Conforme detalhado em um post no , Mark Zuckerberg, CEO da Meta, vislumbra que essas ferramentas possam facilitar interações entre usuários de todo o mundo.
“Em comparação a abordagens que utilizam modelos separados, a abordagem de sistema único do SeamlessM4T reduz erros e atrasos. Aumentando a eficiência e a qualidade do processo de tradução”, disse o comunicado.
O modelo SeamlessM4T será liberado ao público para uso não comercial, conforme informado no post.
Apostas de Zuckerberg na IA
Com o sucesso do ChatGPT, que revolucionou o modo que o mundo vê a IA, as gigantes da tecnologia como a Meta tem investido cada vez mais na tecnologia. Em junho deste ano, a empresa anunciou o lançamento da Voicebox, um modelo de IA capaz de gerar áudio a partir de textos usando qualquer tipo de voz.A ferramenta impressiona pela capacidade de recriar vozes reais usando amostras de apenas dois segundos. Mas para evitar a proliferação de áudios falsos e outros usos indevidos, a tecnologia ainda não estará disponível ao público.
Outra iniciativa da empresa é o ImageBind, um novo modelo de código aberto capaz de gerar fluxos de dados em texto, áudio, imagens, unidades de medição térmica e de movimento.