Iker García Ferrero, Begoña Altuna
Presentamos NoticIA, un conjunto de datos que consta de 850 artículos de noticias en español con titulares clickbait, cada uno emparejado con resúmenes generativos de alta calidad de una sola frase escritos por humanos. Esta tarea exige habilidades avanzadas de comprensión y resumen de texto, desafiando la capacidad de los modelos para inferir y conectar diversas piezas de información para satisfacer la curiosidad informativa del usuario generada por el titular clickbait. Evaluamos las capacidades de comprensión de texto en español de una amplia gama de modelos de lenguaje grandes de ´ultima generación. Además, utilizamos el conjunto de datos para entrenar ClickbaitFighter, un modelo que logra un rendimiento casi humano en esta tarea.
We present NoticIA, a dataset consisting of 850 Spanish news articles featuring prominent clickbait headlines, each paired with high-quality, single-sentence generative summarizations written by humans. This task demands advanced text understanding and summarization abilities, challenging the models’ capacity to infer and connect diverse pieces of information to meet the user’s informational needs generated by the clickbait headline. We evaluate the Spanish text comprehension capabilities of a wide range of state-of-the-art large language models. Additionally, we use the dataset to train ClickbaitFighter, a task-specific model that achieves near-human performance in this task.