Pascual Cantos Gómez , Aquilino Sánchez Pérez , Moisés Almela Sánchez
En el presente artículo se expone la estructura de un algoritmo para la desambiguación automática de significados a partir de colocados. El objetivo de nuestro algoritmo es lograr la máxima eficiencia reduciendo al mínimo (1) los costes computacionales y (2) el recurso a los corpus anotados o etiquetados. La formalización del algoritmo se fundamenta en el análisis de funciones discriminantes. Esta técnica estadística nos permite parametrizar cada uno de los colocados con su correspondiente significado, valiéndonos solamente del texto plano. Los datos parametrizados nos permitirán clasificar cada caso (frases con una palabra ambigua) en una variable de valores de dependientes (es decir, cada uno de los significados de la palabra ambigua). Para comprobar la validez y eficiencia de nuestro algoritmo desambiguador, desambiguamos primero manualmente el significado de la palabra estudiada en cada una de las frases en que ésta aparecía, para luego validar los datos clasificados con la aplicación automática del desambiguador de sentidos. Finalmente, presentamos los resultados globales de nuestro algoritmo, tras aplicarlo a una muestra de limitada de oraciones de ambas lenguas, español e inglés. Al mismo tiempo ponemos de relieve algunos de los aspectos que consideramos relevantes de cara a investigaciones o trabajos futuros.
This paper presents an algorithm based on collocational data for word sense disambiguation (WSD). The aim of this algorithm is to maximize efficiency by minimizing (1) computational costs and (2) linguistic tagging/annotation. The formalization of our WSD algorithm is based on discriminant function analysis (DFA).
This statistical technique allows us to parameterize each collocational item with its meaning, using just bare text. The parameterized data allow us to classify cases (sentences with an ambiguous word) into the values of a categorical dependent (each of the meanings of the ambiguous word). To evaluate the validity and efficiency of our WSD algorithm, we previously hand sense-tagged all the sentences containing ambiguous words and then cross-validated the hand sense-tagged data with the automatic WSD performance. Finally, we present the global results of our algorithm after applying it to a limited set of words in both languages: Spanish and English, highlighting the points we consider relevant for further analysis.