Castellón, España
En el marco de la lingüística de corpus, la lengua española cuenta con numerosas bases de datos textuales de referencia para el estudio diacrónico y sincrónico. Estas plataformas son herramientas de consulta obligatoria para el análisis de fenómenos lingüísticos a partir de datos reales, ya que recopilan textos desde los orígenes del castellano hasta la actualidad. No obstante, desde una perspectiva técnica, el auge de nuevos corpus ha fomentado una reflexión crítica sobre algunas de las limitaciones de estas aplicaciones. En diacronía, por ejemplo, los corpus convencionales, compuestos por una base de datos informatizada y un mecanismo de búsqueda, carecen en algunos casos de la posibilidad de descargar las concordancias, lo que dificulta la labor investigadora y ralentiza tanto la organización como el estudio de los testimonios obtenidos en la consulta. La extracción manual de información en estas herramientas representa, pues, un trabajo tedioso, dado que los investigadores deben copiar y almacenar los datos uno a uno, sin asistencia automatizada, con un consumo excesivo de tiempo y un riesgo mayor de errores humanos que afectan a la precisión de los estudios. Ante ese reto, en este trabajo se presenta una propuesta para la extracción automatizada de datos del Corpus Diacrónico del Español (CORDE), de la Real Academia Española. Para ello, nos hemos servido de las herramientas que ofrece la lingüística computacional para integrar Selenium y Python en la extracción de información de una base de datos de referencia como es el CORDE, de la que se pretenden obtener las concordancias por medio del web scraping, técnica que busca, descarga y procesa contenidos de una página con escasa intervención manual. Por último, cabe mencionar que el script que se describe en este trabajo se pone a disposición de los investigadores en GitHub.
Within the framework of corpus linguistics, the Spanish language has numerous reference databases for diachronic and synchronic studies. These platforms are essential reference tools for the analysis of linguistic phenomena using real-world data, as they compile texts from the origins of Spanish to the present day. From a technical perspective, the rise of new corpora has fostered critical reflection on some of the limitations of these applications. In diachrony, for example, conventional corpora, composed of a computerized database and a search engine, sometimes lack the ability to download concordances, which hinders research and slows down both the organization and analysis of the evidence obtained during the search. Manually extracting information from these tools is therefore tedious, as researchers must copy and store the data one by one, without automated assistance, resulting in excessive time consumption and a greater risk of human error that affects the accuracy of the studies. Faced with this challenge, this paper presents a proposal for the automated extraction of data from the Diachronic Corpus of Spanish (CORDE) of the Royal Spanish Academy. To do so, we used the tools offered by computational linguistics to integrate Selenium and Python into the analysis of a reference database, CORDE, from which we aim to obtain concordances through web scraping, a technique that searches, downloads, and processes web content with minimal manual intervention. Finally, it is worth mentioning that the script described in this paper is available to researchers on GitHub.