La resolución de la ambigüedad, sobre todo al abordar fenómenos léxicos como la polisemia, ha sido un reto de gran tradición en el PLN. Desde un punto de vista computacional, este problema ha sido tradicionalmente abordado mediante tareas de desambiguación del sentido de las palabras y, más recientemente, con la aparición de los conjunto de datos WiC, que abordan la resolución de la polisemia como un problema de clasificación binaria. Estos recursos desempeñan un papel crucial en la evaluación de las capacidades léxicas de los modelos vectoriales, pero su disponibilidad se limita a unas pocas lenguas, lo que supone una desventaja significativa para las lenguas que carecen de tales recursos. Este trabajo presenta datasets en formato WiC para gallego y español, abordando el vacío existente en la investigación de la resolución de la ambigüedad léxica para estas lenguas. Los datasets están formados por un total de 4.300 instancias, y su creación ha seguido las directrices del WiC original en inglés. Además de presentar los conjuntos de datos, presentamos una evaluación sistemática de los modelos transformer monolingües y multilingües entre capas, explorando aspectos como el solapamiento de datos, las dimensiones anómalas y la transferencia entre lenguas. Los resultados revelan que (i) los modelos monolingües y multilingües tienen una precisión comparable, (ii) la normalización vectorial tiene poco efecto en el rendimiento de los modelos, y (iii) la transferencia interlingüística entre el gallego y el español no es efectiva. En relación a los modelos evaluados, Llama 3.2 parece el más efectivo resolviendo la tarea.
Ambiguity resolution, particularly in addressing lexical phenomena such as polysemy, has been a long-standing challenge in NLP. From a computational point of view, this problem has traditionally been tackled through tasks such as word sense disambiguation and, more recently, with the appearance of Word-in-Context (WiC) datasets, which tackle polysemy resolution as a binary classification problem. These datasets play a crucial role in evaluating the lexical capabilities of vector models, but their availability is limited to only a few languages, creating a significant disadvantage for varieties lacking such resources. This paper introduces WiC datasets for Galician and Spanish, addressing the gap in the research on lexical ambiguity resolution for these languages. The datasets have a total of 4,300 instances, and their creation has followed the guidelines of the original English WiC. Besides introducing the datasets, we present a systematic evaluation of monolingual and multilingual transformer models across layers, exploring aspects such as data overlap, rogue dimensions, and cross-lingual transfer. The results reveal that (i) monolingual and multilingual models have comparable accuracy, (ii) vector normalization has little effect on the models’ performance, and (iii) cross-lingual transfer between Galician and Spanish is not effective. Among the evaluated models, Llama 3.2 seems to be the most effective at solving the task.