El nivel de complejidad para la lectura de un texto se calculaba tradicionalmente mediante las fórmulas de lecturabilidad, que miden algunas propiedades lingüísticas de los textos y proporcionan una puntuación. Los métodos actuales de evaluación automática de la lecturabilidad se basan en modelos supervisados que utilizan características lingüísticas definidas manualmente y aprendidas a partir de textos clasificados por niveles de complejidad. Aunque existen corpus de referencia para varios idiomas, los recursos existentes para el español suelen ser limitados en cuanto a diversidad de géneros y están diseñados principalmente para tareas como la simplificación de textos o el aprendizaje del español como lengua extranjera, lo que los hace menos adecuados para el entrenamiento de clasificadores. Este artículo presenta un nuevo corpus de lecturabilidad en español, que contiene 2.563 textos de 11 géneros y 68 subgéneros, clasificados manualmente en cuatro niveles de lecturabilidad. Su compilación y selección temática se definió específicamente para lectores adultos, con especial atención en las tareas de clasificación automática. Este estudio también analiza las propiedades lingüísticas más relevantes en relación con cada uno de los niveles y explora el uso de la surprisal de los modelos de lengua como predictor de la lecturabilidad, cuya correlación con los niveles indica su utilidad para el entrenamiento de clasificadores automáticos.
The reading difficulty of a given text has traditionally been calculated using readability formulas, which measure some linguistic properties of texts and provide a score. Current methods for automatic readability assessment are mostly based on supervised models which use manually defined linguistic features learned from texts classified by readability levels. While reference corpora are available for various languages, existing resources for Spanish are often limited in genre diversity, and primarily designed for tasks like text simplification or teaching Spanish as a foreign language, making them less suitable for training classifiers. This paper presents a new readability corpus for Spanish, which contains 2,563 texts from 11 categories and 68 subcategories, manually classified into four levels of readability. Its compilation and topic selection was specifically defined for adult readers, with a focus on automatic classification tasks. This study also analyzes the most relevant linguistic properties regarding each of the levels, and explores the use of language models’ surprisal as a readability predictor, whose correlation with the levels indicates its usefulness for training automatic classifiers.