Meta anuncia que ya funciona su IA que traduce voces en tiempo real "conservando emociones y tono"
El proyecto SEAMLESSM4T de Meta da un paso adelante con ejemplos y una demo en los que podemos comprobar que no solo capta lo que decimos sino también cómo lo decimos y con qué sentido
Madrid
La tecnológica Meta ha elegido hacerlo a través de una publicación científica en la revista Nature y, así, lo hace trascender de un mero anuncio empresarial. Es la cuarta versión de un modelo de inteligencia artificial que se anunció en verano de 2023 y que puede traducir voz y texto pero que sobre todo destaca por hacer "traducción directa voz-voz en 101 idiomas conservando tono y emociones del hablante".
Lo hace combinado esta IA con otras líneas de investigación de Meta, por ejemplo, una que reconoce si el hablante está triste, alegre o enfadado, o si está susurrando o gritando. Hemos podido comprobar, haciendo pruebas en la demo gratuita, cómo su traducción es ya muy ajustada a la realidad.
Meta dice que se inspira en el original "Pez Babel" de la novela "Guía del autoestopista galáctico", un dispositivo que permitía entender todos los idiomas de la galaxia. Con él quieren "revolucionar la comunicación intercultural, permitiendo a las personas comunicarse en tiempo real sin barreras lingüísticas".
El modelo se llama SEAMLESSM4T. Parece indicar que es un traductor sin fallos o "sin fisuras", que sería la traducción del término seamless en inglés. Si nos ceñimos a sus siglas, estamos ante un "Massively Multilingual and Multimodal Machine Translation", es decir, una "máquina de traducción masiva, multilengua y multimodal".
Meta dice que "llena los vacíos en la cobertura lingüística y supera a todos los sistemas existentes". También que "puede allanar el camino para traducciones universales rápidas". Y anuncia que tendrá "recursos que se pondrán a disposición del público, para uso no comercial, para ayudar en la investigación de traducción de voz.
Ahora mismo, la mayoría de los sistemas de traducción existentes están basados en texto. Es decir, implican, primero, reconocimiento de voz (ASR), después, traducción a text (T2TT) y, por último, conversión de texto a voz (TTS. Además, la mayoría tienen un paso intermedio a través del inglés lo que introduce sesgos en las traducciones.
El equipo de investigación de Meta en Inteligencia artificial explica que ha desarrollado un modelo que traduce de voz a voz directamente, reconociendo 101 idiomas y traduciendo a 36 idiomas. También han conseguido traducción de voz a texto en 96 idiomas.
Resultados
Según los datos del paper que han publicado en Nature, "en las pruebas realizadas, SEAMLESSM4T ha demostrado ser más eficaz que los sistemas en cascada actuales, logrando entre un 8% y 23% más de precisión en las tareas de traducción. Además, ha demostrado ser un 50% más robusto frente al ruido de fondo y las variaciones de los hablantes.
El entrenamiento
El modelo ha sido entrenado con 470.000 horas de traducciones automáticas de voz y texto, lo que le permite manejar incluso combinaciones de idiomas en las que no se ha entrenado.
Los fallos (o las cosas que todavía hay que mejorar)
A pesar de los avances logrados, Meta reconoce que aún quedan desafíos por superar. Entre ellos, mejorar la precisión en la traducción de nombres propios y expresiones coloquiales. También trabaja en mejorar los problemas que surgen entre idiomas al traducir el género masculino o femenino de las cosas, los acentos y los giros de distintos grupos demográficos.
Javier Ruiz Martínez
Redactor de temas de sociedad, ciencia e innovación en la SER. Trabajo en el mejor trabajo del mundo:...