Resumen de Machine Translation for Low-Resource Languages: Performance Trade-offs Between Seq2Seq and Generative Approaches

Saúl Buján, Daniel Bardanca Outeiriño, Pablo Gamallo Otero , Iria de Dios Flores, José Ramón Pichel Campos

español
Este estudio evalúa dos paradigmas de la traducción automática—modelos sequence-to-sequence (seq2seq) y modelos del lenguaje generativos (LLMs)—para traducir los pares de lenguas español-gallego (cercanas) e inglés-gallego (más distantes). Los modelos seq2seq incluyen modelos bilingües y multilingües entrenados desde cero, así como el modelo NLLB-200 en su versión original y ajustada. Los modelos generativos incluyen grandes modelos del lenguaje tanto preentrenados como ajustados. La evaluación se lleva a cabo mediante métricas cuantitativas (BLEU y COMET) y un análisis cualitativo, que incluye un test suite diseñado ad hoc para valorar la precisión lingüística. Los resultados muestran que los modelos generativos ajustados superan a los modelos seq2seq para el par de lenguas distante (inglés-gallego), mientras que los modelos bilingües seq2seq siguen siendo competivos para lenguas próximas (español-gallego). Este estudio resalta los pros y contras de ambos enfoques y ofrece perspectivas para optimizar estrategias de traducción para lenguas de bajos recursos como el gallego.
English
This study evaluates two machine translation paradigms—sequence-tosequence (seq2seq) models and generative language models (LLMs)—for translating Spanish-Galician (closely related) and English-Galician (distant) language pairs. The seq2seq models include bilingual and multilingual models trained from scratch, and NLLB-200 as-is and fine-tuned. The generative models involve both pre-trained and fine-tuned large language models. The evaluation is conducted using quantitative metrics (BLEU and COMET) and qualitative analysis, which includes an ad hoc test suite designed to assess linguistic accuracy. Results show that fine-tuned generative models outperform seq2seq models for the distant language pair (English-Galician), whereas bilingual seq2seq models remain competitive for closely related languages (Spanish-Galician). The study highlights the trade-offs between both approaches and provides insights into optimizing translation strategies for low-resource languages like Galician.

Mi Hispadoc

Selección

Acceso de usuarios registrados

Resumen de Machine Translation for Low-Resource Languages: Performance Trade-offs Between Seq2Seq and Generative Approaches

Mi Hispadoc