Todos sabemos muy bien que el gigante tecnológico Google está trabajando duro para sintetizar voces que suenan cada vez más a humanos. La idea es hacer que las interacciones sean naturales con el asistente personal, con los oradores de Google Home e incluso con el intérprete.
El gigante tecnológico Google está trabajando duro para sintetizar voces que suenan cada vez más como humanos. La idea es hacer que las interacciones sean naturales con el asistente personal, con los oradores de Google Home e incluso con el intérprete.
Esta vez la empresa, por supuesto, el gigante tecnológico Google lanzó un nuevo avance en esta dirección utilizando redes neuronales. ¿Puedes reconocer la diferencia entre la voz humana y la voz sintetizada?
El gigante tecnológico Google ha creado un sistema llamado Tacotron 2, para la síntesis de voz directamente desde el texto. Tiene varias características interesantes como corregir su escritura: puede escribir "esto es realmente impresionante" y luego puede simplemente escuchar la frase correcta "esto es realmente impresionante".
Además, el sistema pronuncia las palabras según su significado. Por ejemplo, "desierto" puede ser "desierto" o "desierto"; la red neuronal detecta esto y da el énfasis correcto.
También hace una pausa cuando detecta comas; cambia la entonación al hacer una pregunta; pronuncia correctamente términos más complejos como "Otorrinolaringología" o "Talib Kweli"; y también es bueno para los trabalenguas.
Sin embargo, lo más importante es que el Tacotron 2 se acerca a la voz humana. En esto Enlace, puede encontrar los ejemplos de voz, y apuesto a que no puede identificar qué frase fue dicha por un humano y cuál fue producida por la IA (Inteligencia Artificial) del gigante tecnológico Google.
Los comentarios están al final de la publicación. Pude identificar correctamente las voces generadas por computadora; algunas diferencias en el ritmo del habla nos permiten detectar esto: son perceptibles pero muy sutiles.
Esta nueva técnica del gigante tecnológico Google reúne dos proyectos de generación de voz anteriores: WaveNet y el Tacotron original.
WaveNet es una red neuronal que aprende a simular nuestra voz. Comienza con audios grabados por humanos, intenta replicarlos y mejora con cada iteración, hasta crear una voz sintética cercana a la real. Realiza una simulación utilizando 16.000 muestras por segundo.
A su vez, el Tacotron original servía para emular características de alto nivel, como la entonación y la prosodia. Juntos, estos dos sistemas "producen un habla que suena natural y se acerca a la fidelidad de audio del habla humana real", escriben los investigadores. El estudio está disponible aquí.
Entonces, ¿qué opinas sobre esto? Simplemente comparta sus puntos de vista y pensamientos en la sección de comentarios a continuación.