Carlos Periñán-Pascual
, Nicolás José Fernández Martínez
Los cognados son palabras ortográficamente similares en distintas lenguas que comparten la misma etimología. La investigación de los cognados es valiosa en ámbitos como la lingüística histórica, la adquisición de lenguas, la recuperación de información y la traducción automática, entre otros. En este contexto, la identificación de false friendssupone un reto para los métodos automáticos de detección de cognados, ya que la similitud ortográfica no es suficiente para detectar estos pares de palabras. Con este fin, evaluamos siete modelos vectoriales-espaciales no supervisados diferentes basados en redes neuronales para detectar cognados y distinguir los cognados verdaderos de los false friends a partir de una lista de pares de palabras en inglés y español. Esta variedad de modelos permitió determinar el impacto de varios factores en la calidad de los resultados y la eficacia de los modelos: los recursos lingüísticos empleados en la construcción del modelo (por ejemplo, corpus de textos, redes asociativas léxicas o ambos), la alineación interlingüística de los espacios semánticos y la fusión de significados en palabras polisémicas
Cognates are orthographically similar words in different languages that share the same etymology. Investigating cognates is valuable in fields such as historical linguistics, language acquisition, information retrieval, and machine translation, among many other. In this context, identifying false friends poses a challenge for automatic methods of cognate detection, as orthographic similarity is not sufficient to distinguish such word pairs. To this end, we evaluated seven different unsupervised vector-space models based on neural networks to detect cognates in general and to distinguish true cognates from false friends in a list of word pairs in English and Spanish. This variety of models allowed us to determine the impact of several factors on the quality of the results and the effectiveness of the models: language resources employed in model construction (e.g., text corpora, lexical associative networks, or both), cross-lingual alignment of semantic spaces, and meaning conflation in polysemous words