Iria del Río
Este trabajo presenta los primeros experimentos en clasificación automática del nivel de proficiencia en Portugués Segunda Lengua (L2). En los experimentos se usa una nueva versión del dataset NLI-PT, una compilación de textos escritos por estudiantes de Portugués L2. La tarea se aborda con aprendizaje supervisado, y se concibe como un problema de clasificación, usando la escala del MCER. Diferentes características lingüísticas son analizadas, así como diferentes algoritmos. Con el mejor modelo hemos obtenido una exactitud del 72%, un resultado en línea con previos experimentos realizados con otras lenguas.
We present the first experiments on automatic proficiency classification for L2 Portuguese. For the experiments, we take advantage of a new version of the NLI-PT dataset, a compilation of L2 Portuguese texts written by learners. We use supervised learning and we approach the task as a classification problem, using the CEFR scale. Different linguistic features are tested, combined with different algorithms. With the best model, we get an accuracy of 72%, a result in line with previous experiments with other languages. |