Albina Sarymsakova
, Patricia Martin-Rodilla
Este estudio contribuye a la evaluación de la producción acústica de hablantes no nativos de español mediante herramientas de Inteligencia Artificial (IA), concretamente modelos de reconocimiento automático del habla (ASR). Con el fin de determinar si los principales modelos ASR pueden proporcionar información adecuada sobre la pronunciación en ELE, evaluamos cuatro modelos (Wav2Vec, Whisper-large-v2, Whisper-large-v3 y SeamlessM4T) utilizando conjuntos de datos de hablantes no nativos de español con el inglés, el ruso o el alemán como L1. Basándose en el marco de evaluación de la tasa de error en palabras y caracteres (WER y CER), Whisper-large-v3 y SeamlessM4T demostraron la mayor precisión en el reconocimiento del habla no nativa. El análisis cualitativo y fonético de los errores reveló que estos modelos tienen dificultades cuando los límites de los formantes vocálicos de los hablantes de la L2 superan los del español estándar o cuando las consonantes sordas están influidas por procesos de asimilación fonética. Además, identificamos un sesgo de género, con un mejor rendimiento de los modelos en el habla femenina que en la masculina, y errores de sustitución como el tipo de error más frecuente. En conclusión, aunque los modelos ASR como Whisper-large-v3 y SeamlessM4T funcionan adecuadamente, la evaluación precisa de la pronunciación para estudiantes de español L2 requiere que sus resultados se complementen con un análisis fonético detallado.
Aquest estudi contribueix a l’avaluació de la producció acústica de parlants no nadius de castellà mitjançant eines d’Intel·ligència artificial (IA), concretament models de reconeixement automàtic de veu (ASR). Amb l’objectiu de determinar si els principals models d’ASR poden proporcionar un feedback adequat sobre la pronunciació del castellà com a L2, hem avaluat quatre models (Wav2Vec, Whisper-large-v2, Whisper-large-v3 i SeamlessM4T) utilitzant conjunts de dades de parlants no nadius de castellà, els quals tenen l’anglès, el rus o l’alemany com a llengua materna. Segons els resultats del marc d’avaluació basat en el Word Error Rate i el Character Error Rate, els models Whisper-large-v3 i SeamlessM4T van demostrar la màxima precisió en el reconeixement de parla no nativa. Una anàlisi qualitativa i fonètica dels errors va revelar que aquests models tenen dificultats quan els límits dels formants vocàlics dels parlants de L2 superen els del castellà estàndard o quan les consonants sordes són afectades per processos d’assimilació fonètica. A més, es va identificar un biaix de gènere, amb un millor rendiment en la parla femenina en comparació amb la masculina, i els errors de substitució com el tipus d’error més comú. En conclusió, tot i que models com Whisper-large-v3 i SeamlessM4T tenen un bon rendiment, l’avaluació precisa de la pronunciació del castellà com a L2 requereix complementar els seus resultats amb una anàlisi fonètica detallada.
This study contributes to the evaluation of non-native Spanish speakers’ acoustic production using Artificial Intelligence (AI) tools, specifically Automatic Speech Recognition (ASR) models. In order to determine whether leading ASR models can provide adequate feedback on L2 Spanish pronunciation, we evaluated four models (Wav2Vec, Whisper-large-v2, Whisper-large-v3, and SeamlessM4T) using datasets of non-native Spanish speakers with English, Russian, and German as L1s. Based on a Word Error Rate and Character Error Rate evaluation framework, Whisper-large-v3 and SeamlessM4T demonstrated the highest accuracy for non-native speech recognition. A qualitative and phonetic error analysis revealed that these models struggle when vowel formant boundaries of L2 speakers exceed those of standard Spanish or when voiceless consonants are influenced by phonetic assimilation processes. Additionally, we identified gender bias, with models performing better on female speech than male speech, and substitution errors as the most frequent error type. In conclusion, while ASR models like Whisper-large-v3 and SeamlessM4T perform adequately, an accurate pronunciation assessment for L2 Spanish learners requires their outputs to be complemented by a detailed phonetic analysis.