Psicología y computación
Las voces humanas generadas por inteligencia artificial ya se entienden mejor que las naturales
Lejos quedan ya los tiempos de las voces robóticas sin entonación y con un timbre claramente artificial que se comenzaron a escuchar en los albores de la generación de voz por ordenador o que aparecían en películas y series de ciencia-ficción con robots. La imitación de la voz humana por vía digital, sobre todo desde la llegada de la inteligencia artificial, ha progresado tanto que actualmente un sistema informático puede hablar con un timbre de voz idéntico al de una persona, pudiendo suplantarla en una conversación. Ahora, unos ingenieros han dado un paso crítico, que marca un antes y un después; ahora la síntesis artificial de voz no solo iguala a la natural sino que la supera: las nuevas voces sintéticas se entienden mejor que las naturales al hablar.
Las voces sintéticas capaces de hablar forman parte cada vez más de nuestra vida cotidiana, desde asistentes digitales como Siri y Alexa hasta teleoperadores automatizados y contestadores automáticos. Con la expansión de la IA generativa, se ha desarrollado un nuevo tipo de voz sintética: los clones de voz, capaces de forjar una réplica exacta de la voz de una persona a partir de tan solo unos segundos de grabación.
Patti Adank, del University College de Londres, y Han Wang, de la Universidad de Roehampton en Londres, ambas instituciones del Reino Unido, evaluaron la inteligibilidad de la voz humana y la de los clones de voz. Descubrieron que los clones de voz son más fáciles de entender que las voces humanas originales en entornos ruidosos.
Los clones de voz se diferencian de las voces sintéticas tradicionales en la cantidad de muestreo que requieren. Las voces sintéticas como la de Siri exigen que un actor o actriz de voz pase horas en un estudio de grabación. En cambio, un clon de voz puede crearse con tan solo 10 segundos de grabación, lo que amplía significativamente la cantidad de voces potenciales, así como la de aplicaciones prácticas posibles.
![[Img #78621]](https://noticiasdelaciencia.com/upload/images/04_2026/7854_las-voces-humanas-generadas-por-inteligencia.jpg)
Los clones de voz, que pueden recrear el timbre de voz y la forma de hablar de una persona tras analizar unos segundos de grabación de su voz, han alcanzado un nivel de perfección asombroso. (Ilustración: American Institute of Physics)
Adank y Wang se han especializado en investigar la percepción humana del habla y les fascinaba la idea del habla replicada por una máquina. Una pregunta clave que querían responder es: ¿Cuán fácil resulta para la persona promedio comprender las palabras pronunciadas por los clones de voz? Sospechaban que los clones de voz serían simplemente representaciones, con una calidad algo inferior, de voces humanas reales y que la gente tendría más dificultades para entender una voz clónica que una natural cuando las condiciones de audición no fuesen las ideales. Lo que descubrieron fue completamente diferente.
Al principio, los sujetos de estudio escucharon voces humanas y clones de voz. Se les pidió que calificaran su inteligibilidad.
Tras comprobar que los clones de voz tendían a ser calificados como más fáciles de entender, repitieron el experimento con voluntarios de edad avanzada para determinar si la pérdida auditiva asociada al envejecimiento alteraba el efecto. También lo hicieron con voluntarios estadounidenses, siendo la cohorte original británica, ya que querían averiguar si el acento influía. Incluso emplearon un filtro diseñado para imitar implantes cocleares, a fin de averiguar si las personas cuya percepción auditiva se realiza de este modo son capaces de captar diferencias entre una voz natural y otra digital clónica.
En todos los casos, la mayoría de los sujetos de estudio entendía mejor a las voces clonadas que a las reales cuando el ambiente era ruidoso. Concretamente, las voces clónicas generadas mediante inteligencia artificial eran hasta un 20% más inteligibles que las voces naturales en las que se basaban. En otras palabras, no solo las han igualado en calidad sino que las han superado.
El estudio se titula “Voice clones are easier to understand in noise than their human originals: the voice cloning intelligibility benefit”. Y se ha publicado en la revista académica The Journal of the Acoustical Society of America. (Fuente: NCYT de Amazings)

