¿Puedes distinguir una voz artificial de una voz humana real?

Steven Mike Voser
L
Los ingenieros de Google acaban de crear la última tecnología en síntesis de voz, el Tacotron 2. ¿Puedes distinguir este robot de un humano?

¿Crees que puedes notar la diferencia entre la voz de un humano y la de una máquina? Si conoces las voces de los sintetizadores de voz de inteligencia artificial de la vieja escuela -como Sam, Mike y Mary de Microsoft, o incluso las de Siri y Alexa- probablemente respondas con un sí rotundo. Pero si has oído el nuevo sintetizador de voz de IA de Google, Tacotron 2, puede que tu respuesta no sea tan firme. Google lanzó este programa a finales de diciembre junto con su propio informe, comparando la voz de Tacotron con la de una persona real. Según el informe escrito por investigadores de Google en la Universidad de Berkeley, es prácticamente imposible distinguirlas. Para comprobarlo por ti mismo, puedes escuchar las muestras de sonido aquí antes de seguir leyendo.
 

 

TACOTRON 2: LO ÚLTIMO EN SINTETIZADORES DE VOZ DE IA

Ahora que ya has oído las muestras de Tacotron 2 de Google, probablemente estés asombrado por su realismo. El sistema, desarrollado por los propios ingenieros de Google, consiste en dos redes neuronales complejas que ayudan a traducir el texto en palabras. La primera red convierte el texto en un espectrograma, que proporciona al sistema una representación visual de cómo debería sonar el texto. A continuación, este espectrograma pasa al WaveNet, que lee el espectrograma y produce los sonidos correspondientes.
 
A continuación, este espectrograma pasa al WaveNet, que lee el espectrograma y produce los sonidos correspondientes.
 

AVANCES EN LOS SINTETIZADORES DE VOZ

Mientras que en años recientes el reconocimiento de voz ha dado grandes pasos (como por ejemplo la búsqueda por voz de Google o el sistema Siri de Apple), la tecnología de síntesis de voz estaba quedando rezagada. Durante años, la tecnología para convertir texto en voz dependía de los llamados sistemas concatenativos. Básicamente, esta síntesis consistía en una biblioteca de pequeños fragmentos de voz, grabados a partir de una voz humana real, que se combinaban entre sí para formar frases.
A pesar de que estos sistemas funcionaban, era muy difícil imitar las particularidades de la voz humana, como el énfasis o la emoción. Para poder incorporar estos detalles, la biblioteca de sonidos al completo debería grabarse de nuevo desde cero. Durante mucho tiempo, la única alternativa real a los sistemas de síntesis de voz concatenativos eran los sistemas de voz paramétricos. Mientras estos sistemas tienen la capacidad de controlar el contenido y las características de la voz usando aportes específicos, tienden a sonar mucho menos naturales. Pero WaveNet, el sistema tras el Tacotron 2 de Google, revoluciona totalmente la forma en que las máquinas sintetizan la voz.
 

WAVENET: REVOLUCIONANDO LA SÍNTESIS DE VOZ DE LA IA

WaveNet fue desarrollado por DeepMind, una compañía de IA con base en el Reino Unido. La base científica tras este sistema es muy compleja. Según DeepMind, inicialmente se entrena las WaveNets usando formas de onda de sonido grabadas a partir de voces de personas reales. Una vez que el sistema ha sido entrenado con estas muestras, es capaz de probarlas para crear nuevas expresiones sintéticas. Luego usa algoritmos complejos para predecir los siguientes pasos en un fragmento de texto y, finalmente, produce un audio de sonido rico y natural.
Usando el conjunto de datos existente de conversores de texto en voz de Google, los investigadores de Deep Mind analizaron el resultado de WaveNet, comparándolo con los mejores sistemas de síntesis de voz de Google (paramétrico y concatenativo). Los resultados se expresaron usando valores del 1-5 en la escala de MOS (Mean Opinion Score), una medida estándar usada en pruebas de audio. Al sintetizar el inglés de EE.UU.,WaveNet produjo un MOS de 4,21. Los sistemas concatenativos y paramétricos de Google obtuvieron una puntuación de 3,86 y 2,6 respectivamente, mientras que la voz humana real obtuvo un 4,55. Los investigadores de DeepMind realizaron las mismas pruebas en chino mandarín, obteniendo los siguientes resultados:

  • Voz humana: 4,21
  • WaveNet: 4,08
  • Paramétrico: 3,79
  • Concatenativo: 3,47

WaveNet se diferencia de otros sistemas de síntesis de voz en muchos aspectos. Para saber qué decir, WaveNet tiene que recibir un texto que haya sido transformado en una secuencia de ejemplos fonéticos y lingüísticos sobre las sílabas, palabras y otros sonidos que se supone que debe reproducir. Sin esta información, el sistema sigue funcionando pero tiene que inventarse lo que debe decir. Cuando lo hace, suele producir una serie de sonidos aleatorios, incluyendo alguna que otra palabra.
Debido a que el sistema depende de material de audio sin editar, WaveNet también es capaz de reproducir sonidos naturales, como la respiración o los sonidos de los movimientos de la boca. Resulta interesante que se pueda enseñar a WaveNet a reproducir todo tipo de sonidos, no solo la voz. Por ejemplo, los investigadores de DeepMind entrenaron al sistema con música de piano clásica en lugar de una voz humana. ¿El resultado? Unos impresionantes fragmentos de piano improvisado con IA. Puedes leer más sobre WaveNet en la página web de DeepMind.
 
Puedes leer más sobre WaveNet en la página web de DeepMind.
 

HAZ LA PRUEBA: ¿PUEDES IDENTIFICAR EL ROBOT?

Ahora que ya conoces el funcionamiento del Tacotron 2 de Google, es el momento de hacer la prueba. ¿Crees que puedes distinguir Tacotron 2 de un voz humana real? Para comprobarlo, sigue este enlace y desplázate hacia abajo hasta las últimas muestras de audio, tituladas “Tacotron 2 or human?” Encontrarás un total de 8 muestras; 4 de una voz humana y 4 de Tacotron 2. ¿Puedes diferenciar al robot? Una vez las hayas escuchado, puedes seguir leyendo para averiguar qué muestras han sido reproducidas por Tacotron 2.
 

RESPUESTAS

Entonces, ¿cuáles de los ejemplos anteriores pertenecen a un humano? Pues bien, Google no ha dado la respuesta. Sin embargo, ha dejado una gran pista. Si descargas los archivos, observarás que algunos nombres de archivo contienen el término “gen”, mientras que otros incluyen el código “gt”. Aunque no podemos estar completamente seguros, el informe de Google sugiere que los archivos etiquetados con “gen” fueron generados por Tacotron 2, mientras que los archivos con “gt” provienen de un humano. Asumiendo que esto es correcto, aquí están las respuestas a la prueba anterior:
“That girl did a video about Star Wars lipstick.”

  • Muestra 1: Humano real
  • Muestra 2: Tacotron 2

“She earned a doctorate in sociology at Columbia University.”

  • Muestra 1: Tacotron 2
  • Muestra 2: Humano real

“George Washington was the first President of the United States.”

  • Muestra 1: Tacotron 2
  • Muestra 2: Humano real

“I’m too busy for romance.”

  • Muestra 1: Humano real
  • Muestra 2: Tacotron 2