Núria Bel Rafecas , Marta Punsola Munárriz, Valle Ruiz Fernández
Presentamos CatCoLA, el Corpus Catalán de Aceptabilidad Lingüística que contribuirá al Catalan Language Understanding Benchmark (CLUB) con la misión de ayudar a evaluar y comparar las capacidades de los modelos del lenguaje (LM) entrenados con textos en catalán. CatCoLA sigue el diseño del CoLA inglés para la tarea de clasificar oraciones como aceptables o no. Dado que la tarea depende en gran medida de las características de las lenguas particulares, los datos no pueden traducirse de una lengua a otra y la disponibilidad de estos datasets para diferentes lenguas requiere desarrollos específicos. Nuestro corpus consta de 10.443 oraciones y los juicios de aceptabilidad correspondientes, tal y como se han encontrado en gramáticas catalanas de referencia. Además, todas las frases se han anotado con la clase del fenómeno lingüístico del que la frase es ejemplo, también siguiendo practicas anteriores. También proporcionamos como referencia los resultados de la tarea de cuatro modelos del lenguaje diferentes y los resultados de un experimento de anotación humana. CatCoLA se publica bajo licencia CC BY SA 4.0 y está disponible gratuitamente en https://doi.org/10.34810/data1393.
We introduce CatCoLA, the Catalan Corpus of Linguistic Acceptability that will contribute to the Catalan Language Understanding Benchmark (CLUB) to assess and compare the capabilities of language models (LM) trained with texts in Catalan. CatCoLA follows the design of the English CoLA to support the task of classifying sentences as acceptable or not. Because the task is very dependent on the characteristics of particular languages, datasets cannot be translated from one language to another and the availability of these datasets for different languages requires specific developments. CatCoLA consists of 10,443 sentences and their acceptability judgements as found in well-known Catalan reference grammars. Additionally, all sentences have been annotated with the class of linguistic phenomenon the sentence is an example of, also following previous practices. We also provide as task baselines the results of fine-tuning four different language models with this dataset and the results of a human annotation experiment. The results are also analyzed and commented to guide future research. CatCoLA is released under a CC BY SA 4.0 licence and freely available at https://doi.org/10.34810/data1393.