Este artículo explora la efectividad de los modelos basados en transformers en la clasificación multietiqueta de la función discursiva de tareas de conjuntos léxicos en dos idiomas, euskera y español. El estudio tiene un doble enfoque: en primer lugar, evaluar el impacto de los conjuntos de datos anotados manual y automáticamente en el fine-tuning para esta tarea; en segundo lugar, demostrar la eficiencia de los modelos de lenguaje multilingües en un contexto de aprendizaje de transferencia entre idiomas para esta tarea. En primer lugar, nuestros resultados revelan la capacidad de los transformers de generalizar la clasificación de funciones discursivas de conjuntos léxicos más allá de las formas específicas de secuencia de palabras, en contextos tanto de aprendizaje monolingüe como de transferencia de aprendizaje entre idiomas. En el primer contexto, esta investigación destaca la superioridad de los conjuntos de datos anotados manualmente sobre los anotados automáticamente, siempre que el tamaño del conjunto de datos sea lo suficientemente grande. En el último, a pesar de que el aprendizaje de transferencia ocurre entre dos idiomas tipológicamente diferentes, los resultados también sugieren la superioridad de los conjuntos de datos anotados manualmente, así como la capacidad de superar los resultados monolingües cuando se equilibran las proporciones de los corpus de entrenamiento y ajuste fino en el idioma objetivo y de origen.
This paper explores the effectiveness of transformer-based models in the discourse function multi-label classification of lexical bundles task in two languages, Basque and Spanish. The study has a dual focus: firstly, to evaluate the impact of manually and automatically annotated datasets in the fine-tuning for this task; secondly, to demonstrate the efficiency of multilingual language models in a cross-lingual transfer learning context for this task. First and foremost, our findings reveal their ability to generalize discourse function classification of lexical bundles beyond specific sequence of words forms in the mentioned task in both monolingual and cross-lingual transfer learning contexts. In the former setting, this research highlights the superiority of manually annotated datasets over the automatically annotated ones as long as dataset size is sufficiently large. In the latter case, despite the transfer learning occurring between two typologically different languages, results also suggest the superiority of manually annotated datasets along with the capability to surpass the monolingual results when ratios of target and source language training and fine-tuning corpora are balanced.