, Miguel Ortega Martín
En este artículo presentamos un segmentador para la generación de vocabularios de grandes modelos del lenguaje que, a diferencia de las aproximaciones estadísticas actuales, está basado en conocimiento morfológico y léxico del español. El objetivo es tratar de mejorar la eficacia de estos modelos, especialmente en tareas de carácter lingüístico, resolviendo los problemas de falta de relevancia, coherencia y corrección morfológica que presentan sus vocabularios estadísticos. El segmentador morfológico que presentamos divide los textos de entrada en morfemas reales del español en vez de en subpalabras frecuentes que no siempre coinciden con morfemas. Para ello utiliza un lexicón generado semiautomáticamente de 755.467 palabras y morfemas del español y una gramática, generada manualmente, de 234 reglas morfológicas. Hemos evaluado el segmentador y su vocabulario aplicando una metodología desarrollada en nuestro trabajo previo, y hemos podido comprobar que el segmentador morfológico genera un vocabulario con una corrección morfológica del 98% en un tiempo razonable de forma que pueda utilizarse con grandes modelos de lenguaje.
Here we present a tokenizer for the generation of vocabularies for large language models which, unlike current statistical approaches, is based on morphological and lexical knowledge of Spanish. The goal is to improve the effectiveness of these models, especially in linguistically-oriented tasks, by addressing issues related to the lack of relevance, coherence, and morphological accuracy found in statistical vocabularies. The morphological tokenizer we present splits input texts into actual Spanish morphemes rather than frequent subword units. To achieve this, it uses a semi-automatically generated lexicon of 755,467 Spanish words and morphemes, along with a manually crafted grammar containing 234 morphological rules. We evaluated the tokenizer and its vocabulary using a methodology developed in our previous work, and found that the morphological tokenizer produces a vocabulary with 98% morphological accuracy in a reasonable amount of time, making it suitable for its use with large language models.