Alfonso Rodríguez Fernández-Peña
Este artículo ofrece un estudio descriptivo tanto cualitativo como cuantitativo de la desacentuación de la información conocida en inglés por cuatro programas de conversión de texto a voz (TTS) en línea (Murf, Lovo, PlayHT y Replica Studios). Como texto de entrada para probar estos programas se han utilizado diez frases en las que cada una conteniene elementos de información conocida. Los tipos de voces inglesas seleccionadas para nuestro análisis son una voz masculina con acento británico y una voz femenina con acento estadounidense para cada software. Cada oración ha sido reproducida por las voces en cada software, descargada en formato de audio y analizada utilizando el software de análisis acústico Praat. De esta manera, hemos medido y evaluado los contornos tonales para cada enunciado y comprobado si la regla de la anáfora se aplica o no en los diferentes programas TTS. Los resultados generales muestran que casi el 70 % de las oraciones reproducidas por estos programas no logran aplicar la regla de la anáfora; lo que significa que esta característica prosódica propia del inglés y su correspondiente carga pragmática se pierde la mayoría de las veces. Los resultados obtenidos indican que, aunque las voces sintéticas pueden ser exitosas a nivel de producción segmental en términos de concatenación y calidad de voz, los elementos suprasegmentales y prosódicos del habla humana aún no son del todo reproducibles por las máquinas.
This paper provides a descriptive qualitative and quantitative study of the deaccenting of given information, a.k.a. anaphora rule, by four well-known online TTS software (Murf, Lovo, Play.ht and Replica Studios). We have used 10 lines as input, each containing elements of given information to test the software. The voice types selected for our analysis are one male with British English accent and one female with American English accent for each software. Each line has been uttered by the voice skins in each software, downloaded in audio format and analysed using the speech analysis software Praat. This way we can measure and evaluate the pitch contours for each utterance and check whether the anaphora rule is applied or not by the different TTS software. The general results show that almost 70% of the lines do not achieve the delivery of the anaphora rule. This means that this prosodic feature characteristic of English stress and the substantial pragmatic load it carries is lost most of the times. The results obtained indicate that despite the fact that synthetic voices may be successful at segmental level in terms of catenation and voice quality, the suprasegmentals and prosodic elements of human speech are not mastered by the machines yet.