Speech-to-speech translation
S2ST: modelo de traducción simultánea en Google Meet

Irene Carretero
Google da un paso más allá en la traducción simultánea de voz lanzando el modelo «speech-to-speech translation» (S2ST), que es capaz de traducir con tan solo 2 segundos de retraso y con la voz original de la persona que está hablando.
Esta herramienta avanzada del gigante de Silicon Valley pretende acabar con la brecha de comunicación que hay entre personas que hablan distintos idiomas y facilitar la conversación integrando este modelo con Google Meet.

Traducción en tan solo 2 segundos
Si antes esta funcionalidad tardaba 4-5 segundos en traducir y con ciertos errores, con el nuevo modelo S2ST Google quiere pulir todo esto y ofrecer una traducción simultánea en 2 segundos, añadiendo además la particularidad de que es la propia voz de la persona la que habla, haciendo la comunicación más natural.
Este es un ejemplo de la integración de Google Meet con el modelo «speech-to-speech translation»:
Tecnología avanzada para traducir en tiempo real
Antes la tecnología de conversión de voz a voz seguía esta cadena de bloques de procesamiento:
- El audio original se transcribía a texto con modelos de IA de reconocimiento de voz (ASR).
- El texto transcrito se traducía al idioma correspondiente con modelos de traducción automática de voz (AST).
- La traducción se convertía a audio con herramientas de conversión de texto a voz (TTS).
Ahora Google ha mejorado este sistema de procesamiento para sincronizar los datos de entrada (audio) con el objetivo final (traducir). De esta manera impulsan el aprendizaje automático en tiempo real para traducir audio de manera continua.
Simplificando el proceso que explica Google en su blog, lo primero que hacen los sistemas es limpiar y filtrar el audio para que solo haya un hablante en origen y reducir el ruido con modelos TTS. Una vez hecho esto, los modelos ASR transcriben el texto y se traducen del idioma de origen al de destino. Después se valida el resultado y el texto traducido se convierte en audio, conservando la voz y características del audio original.
Este es el esquema que indica Google para aclarar el proceso de pasar de audio a audio con una traducción de idioma de por medio:

En la explicación del entrenamiento del modelo, Google reconoce que podría haber más calidad en la traducción si hubiera más tiempo de respuesta, pero que se escoge un retraso de 2 segundo en general porque es un tiempo que da un resultado adecuado para la mayoría de idiomas.
Además, este pequeño espacio de tiempo hace que la comunicación en tiempo real sea más natural.

Integración del modelo S2ST de Google
Google ya ha integrado este sistema de traducción simultánea en dos de sus productos:
- Google Meet, de forma que facilita la comunicación multilingüe en tiempo real.
- Pixel 10: la función Pixel Voice Translate se integra en el dispositivo móvil propio de Google.
Actualmente el modelo está disponible, además de en inglés como idioma de origen o destino, en otros 5 idiomas: español, alemán, francés, italiano y portugués. Están haciendo pruebas con el hindi y prevén seguir desarrollando la capacidad de otros idiomas.
Con este modelo «speech-to-speech translation» (S2ST) Google está acercándose a una realidad muy demandada y soñada por todo el mundo: poder comunicarnos en tiempo real sin barreras del lenguaje, mejorando al mismo tiempo las funcionalidades de los productos que ofrece.


