Javier Conde, Miguel González, Nina Melero, Raquel Ferrando, Gonzalo Martínez, Elena Merino Gómez, José Alberto Hernández, Pedro Reviriego Vasallo
La popularidad de los grandes modelos de lenguaje, o LLM del inglés Large Language Models, con los que los usuarios pueden interactuar ha llevado al desarrollo de un gran número de modelos abiertos. Estos modelos se evalúan con múltiples conjuntos de pruebas para valorar sus capacidades para responder preguntas o resolver problemas sobre casi cualquier tema posible, o para probar su habilidad para razonar o interpretar textos. Sin embargo, la evaluación del conocimiento que estos modelos tienen de los idiomas ha recibido mucha menos atención. Por ejemplo, las palabras que pueden reconocer y usar en diferentes idiomas. En este artículo evaluamos el conocimiento que los LLM conversacionales abiertos tienen de las palabras en español utilizando una muestra de palabras de un diccionario de referencia. Los resultados muestran que los LLM conversacionales abiertos producen significados incorrectos para una fracción importante de las palabras y no son capaces de usar la mayoría de las palabras correctamente para escribir frases con contexto. Estos resultados muestran cómo el español se queda atrás en la carrera de los LLM de código abierto y destacan la necesidad de impulsar la equidad lingüística en los LLM conversacionales asegurando que proporcionen un rendimiento similar en todos los idiomas.
The growing interest in Large Language Models (LLMs) and in particular in conversational models with which users can interact has led to the development of a large number of open chat LLMs. These models are evaluated on a wide range of benchmarks to assess their capabilities in answering questions or solving problems on almost any possible topic or to test their ability to reason or interpret texts. Instead, the evaluation of the knowledge that these models have of the languages has received much less attention. For example, the words that they can recognize and use in different languages. In this paper, we evaluate the knowledge that open chat LLMs have of Spanish words by testing a sample of words in a reference dictionary. The results show that open chat LLMs produce incorrect meanings for an important fraction of the words and are not able to use most of the words correctly to write sentences with context. These results show how Spanish is left behind in the LLM race and highlight the need to push for linguistic fairness in conversational LLMs ensuring that they provide similar performance across languages.