Este artículo investiga cómo las memorias de traducción (MT) pueden ser creadas por traductores y otros expertos lingüísticos a fin de compilar corpus paralelos específicos de un dominio, que luego pueden ser utilizados en varios escenarios, como el entrenamiento de la traducción automática y el ajuste de parámetros, la optimización de las MT y/o el ajuste de parámetros de grandes modelos de lenguaje. El artículo presenta una metodología semiautomática para la preparación de MT, que aprovecha principalmente herramientas de traducción utilizadas por traductores, en beneficio de la calidad y el control de los datos por parte de los traductores. Esta metodología semiautomática se utiliza para construir un corpus turco → inglés en el ámbio de la cardiología a partir de resúmenes bilingües de revistas turcas de cardiología. El corpus resultante, llamado Corpus TRENCARD, tiene aproximadamente 800.000 palabras de origen y 50.000 frases. Con esta metodología, los traductores pueden construir sus propias MT en un tiempo razonable y usarlas en tareas que requieran datos bilingües.
Aquest article investiga com els traductors i altres experts lingüístics poden crear memòries de traducció (MT) per tal de compilar corpus paral·lels específics d’un domini, que després poden ser utilitzats en diversos escenaris, com ara l’entrenament de la traducció automàtica i l’ajustament de paràmetres, l’optimització de les MT i/o l’ajustament de paràmetres de grans models de llenguatge. L’article presenta una metodologia semiautomàtica per a la preparació de MT, que aprofita principalment eines de traducció utilitzades per traductors, en benefici de la qualitat i el control de les dades per part dels traductors. Aquesta metodologia semiautomàtica s'utilitza per construir un corpus turc → anglès en l’àmbit de la cardiologia a partir de resums bilingües de revistes turques de cardiologia. El corpus resultant, anomenat Corpus TRENCARD, té aproximadament 800.000 paraules d'origen i 50.000 frases. Amb aquesta metodologia, els traductors poden construir les seves pròpies MT en un temps raonable i utilitzar-les en tasques que requereixin dades bilingües.
This article investigates how translation memories (TMs) can be created by translators or other language professionals in order to compile domain-specific parallel corpora, which can then be used in different scenarios, such as machine translation training and fine-tuning, TM leveraging, and/or large language model fine-tuning. The article introduces a semi-automatic TM preparation methodology that primarily leverages translation tools used by translators, in the interests of data quality and control by translators themselves. This semi-automatic methodology is then used to build a cardiology-based Turkish → English corpus from bilingual abstracts of Turkish cardiology journals. The resulting corpus, called TRENCARD Corpus, has approximately 800,000 source words and 50,000 sentences. Using this methodology, translators can build custom TMs in a reasonable time and use them in tasks requiring bilingual data.