El objetivo de este artículo es evaluar tres corpus de entrenamiento de inglés antiguo y tres configuraciones y procedimientos de entrenamiento en relación con el rendimiento en la tarea de anotación automática de Dependencias Universales (UD, Nivre et al., 2016). El método tiene como objetivo determinar en qué medida el tamaño del corpus mejora los resultados y qué configuración ofrece las mejores métricas. Los métodos de entrenamiento incluyen una tubería con configuración predeterminada, preentrenamiento del paso tok2vec y un modelo de lenguaje basado en transformadores. Para todos los métodos de entrenamiento, se han probado tres corpus de entrenamiento de cuatro tamaños diferentes: 1.000, 5.000, 10.000 y 20.000 palabras. Los corpus de entrenamiento y evaluación se basan en ParCorOEv2 (Martín Arista et al., 2021). Los resultados se pueden resumir de la siguiente manera: los corpus de entrenamiento más grandes dan lugar a un mejor rendimiento en todas las etapas de la tubería, especialmente en el etiquetado de partes de discurso y el análisis de dependencias. El pre-entrenamiento de la etapa tok2vec produce mejores resultados que la tubería predeterminada. Se puede concluir que el rendimiento podría mejorar con más datos de entrenamiento o con fine tuning de los modelos. Sin embargo, incluso con los datos de entrenamiento limitados seleccionados para este estudio, se han obtenido resultados satisfactorios para la tarea de anotar automáticamente el inglés antiguo con UD.
The aim of this article is to assess three training corpora of Old English and three configurations and training procedures as to the performance of the task of automatic annotation of Universal Dependencies (UD, Nivre et al., 2016). The method is aimed to deciding to what extent the size of the corpus improves results and which configuration turns out the best metrics. The training methods include a pipeline with default configuration, pre-training of tok2vec step and a model of language based on transformers. For all training methods, three training corpora with four different sizes are tested: 1,000, 5,000, 10,000, and 20,000 words. The training and the evaluation corpora are based on ParCorOEv2 (Martín Arista et al., 2021). The results can be summarised as follows. The larger training corpora result in improved performance in all the stages of the pipeline, especially in POS tagging and dependency parsing. Pre-training the tok2vec stage yields better results than the default pipeline. It can be concluded that the performance could improve with more training data or by fine-tuning the models. However, even with the limited training data selected for this study, satisfactory results have been obtained for the task of automatically annotating Old English with UD.