En este articulo nos enfrentamos al reto de detectar noticias falsas exclusivamente en español, un campo en el cual no ha habido demasiado esfuerzo de investigación. Además, la temática de las noticias se mantiene en continuo cambio, por lo que los modelos que no pueden adaptarse acaban siendo poco efectivos a largo plazo. Es por ello que, en este campo, la robustez es imprescindible. En búsqueda de esa propiedad, hemos aplicado distintas técnicas de explotación y aumento de datos para mejorar los resultados de un clasificador simple basado en un transformer preentrenado. Adicionalmente, hemos incluido una comparativa con un gran modelo de lenguaje generativo. También, utilizamos dos particiones distintas de un mismo dataset para comparar su efectividad: una partición típica con conjuntos de entrenamiento y test parecidos y otra más realista (adversaria). Finalmente, analizamos qué aspectos ejercen mayor influencia sobre la robustez y efectividad de los modelos para la detección de noticias falsas.
In this paper, we face the challenge of fake news detection exclusively in Spanish, an application domain in which there has not been much research. Furthermore, the news topics are in continuous change and models that are not able to adapt end up being ineffective in the long term. For that reason, in this domain, the robustness of the models is key. With that goal in mind, we have applied several techniques that include data exploitation and augmentation in order to improve the performance of a simple pre-trained transformer-based model. Additionally, we have included a comparison with a generative large language model. Moreover, we use two different dataset splits to compare that performance: a standard approach to partitioning the dataset, balancing the training and test sets, and a more realistic (adversarial) one. Finally, we discuss which aspects have more influence over the robustness and performance of the fake news detection models.