En este trabajo presentamos una aproximación a la extracción automática de estructuras conceptuales a partir de colecciones desordenadas de documentos, aprovechando regularidades léxicas a gran escala en los textos. Es una técnica para asociar un término con una constelación de otros términos que refleje lo esencial del significado. La metodología es independiente de la lengua. Se explora una colección de documentos donde el término inicial aparece (como la colección que devuelve un motor de búsqueda con esa interrogación) y se construye una red en la que cada nodo es asignado a un término. La ponderación de las conexiones entre nodos se incrementa cuando los términos que representan aparecen juntos en un contexto de extensión predefinida. Posibles aplicaciones son la generación automática de mapas conceptuales, la extracción de terminología, la recuperación de términos, su traducción, localización, etc. El sistema se encuentra actualmente en desarrollo, sin embargo experimentos preliminares muestran resultados prometedores.
In this paper, we present an approach to the automatic extraction of conceptual structures from unorganized collections of documents using large scale lexical regularities in text. The technique maps a term to a constellation of other terms that captures the essential meaning of the term in question. The methodology is language independent, it involves an exploration of a document collection in which the initial term occurs (e.g., the collection returned by a search engine when being queried with this term) and the building of a network in which each node is assigned to a term. The weights of the connections between nodes are strengthened each time the terms that these nodes represent appear together in a context of a predefined length. Possible applications are automatic concept map generation, terminology extraction, term retrieval, term translation, term localization, etc. The system is currently under development although preliminary experiments show promising results.