Resumen de MSD-ManualsDE-ES. Un corpusde comunicación especializada mediada médica en el Parallel Corpus of German and Spanish (PaGeS)

María Teresa Sánchez Nieto

español
Este trabajo presenta el corpus MSD ManualsDE-ES, un suplemento del corpus PaGeSen el proyecto PaCorES, centrado en la comunicación especializada en medicina. El corpus se basa en las versiones profesional y para el público general de los Manuales Merck/MSD, reconocidos por su fiabilidad y accesibilidad. El objetivo principal es documentar el proceso de compilación y alineación del corpus, que, en su versión 1.0incluye más de 500.000 bisegmentos y 17,5millones de palabras, distribuidas en dos subcorpus (MSD Manual DE-ES homey MSD ManualDE-ESprofesional) que reflejan registros comunicativos distintos: experto-lego y experto-experto. La metodología empleada combina herramientas del proyecto MTUOC y scripts desarrollados con ayuda de modelos de lenguaje como Copilot y LeChat, lo que permite automatizar tareas complejas como la extracción de texto, la alineación y la gestión de metadatos. Se detallan los retos técnicos, como la limpieza de datos y la segmentación, y se reflexiona sobre el potencial de la inteligencia artificial en la lingüística de corpus. El corpus MSD-ManualsDE-ESsirvea la investigación en traducción especializada, lexicografía y enseñanza de lenguas con fines específicos y contribuye a paliar la escasez de recursos paralelos en el ámbito biosanitario para el par de lenguas alemán-español. Su integración en PaGeSrefuerza la oferta de corpus accesibles en línea para la comunidad investigadora.
English
This paper introduces the MSD Manuals DE-EScorpus, a bilingual German-Spanish supplement to the PaGeScorpus within the PaCorES project, focused on specialised medical communication. The corpus draws on both the professional and general-public versions of the Merck/MSD Manuals, renowned for their reliability and accessibility. Its primary aim is to document the compilation and alignment process of the corpus, which comprises over 500,000 bi-segments and 17.5million words, distributed across two subcorpora (MSD Manual DE-EShomeandMSD Manual DE-ESprofessional) that reflect distinct communicative registers: expert-to-laypersonand expert-to-expert. The methodology combines tools from the MTUOC project with scripts developed using language models such as Copilot and LeChat, enabling the automation of complex tasks including text extraction, alignment, and metadata management. Technical challenges such as data cleaning and segmentation are addressed, and the potential of artificial intelligence in corpus linguistics is explored. The MSD-Manuals DE-EScorpus serves as a valuable resource for research in specialised translation, lexicography, and language teaching for specific purposes, while also helping to address the scarcity of parallel resources in the biomedical domain for the German-Spanish language pair. Its integration into PaGeSenhances the availability of freely accessible corpora for the research community.

Mi Hispadoc

Selección

Acceso de usuarios registrados

Resumen de MSD-ManualsDE-ES. Un corpusde comunicación especializada mediada médica en el Parallel Corpus of German and Spanish (PaGeS)

Mi Hispadoc