Este artículo presenta un algoritmo independiente de lengua para la alineación de corpus paralelo a nivel de documento, de oración y de vocabulario, tomando como única fuente de información el mismo corpus a alinear. La entrada es un conjunto de documentos escritos en dos lenguas desconocidas A y B, donde cada documento en la lengua A tiene su correspondiente traducción a la lengua B. El problema consiste en: 1) dividir el conjunto de documentos en las dos lenguas; 2) alinear a nivel de documento: determinar qué documento en la lengua A es el original (o la traducción) de cada documento en la lengua B; 3) alinear a nivel de oración: determinar qué oración en el original corresponde a qué oración en la traducción y 4) alinear a nivel del vocabulario: determinar qué palabra en una lengua es equivalente a cada palabra en la traducción. El algoritmo es iterativo, ya que utiliza el vocabulario bilingüe resultante para realinear el corpus. La evaluación en inglés, castellano y francés muestra resultados competitivos en todos los niveles.
This paper presents a language independent algorithm for the alignment of parallel corpora at the document, sentence and vocabulary levels using the to-be aligned corpus itself as the only source of information. The input is a set of documents written in two unknown languages A and B, where every document in language A has its corresponding translation into language B. The problem thus consists of: 1) dividing the set of documents in the two languages; 2) aligning at the document level to determine which document in language A is the original (or translation) of each document in language B; 3) aligning at the sentence level to determine which sentence in the original corresponds to each sentence in the translation and 4) aligning at the vocabulary level to determine which word in one language is equivalent to each word in the translation. The algorithm is iterative, using the resulting bilingual vocabulary to re-align the corpus. Evaluation figures in English, Spanish and French show competitive results at all levels of the alignment.