Un Segmentador Morfológico para la Generación de los Vocabularios de Grandes Modelos de Lenguaje en Español

Óscar García Sierra; Ana Fernández-Pampillón Cesteros; Miguel Ortega Martín

Un Segmentador Morfológico para la Generación de los Vocabularios de Grandes Modelos de Lenguaje en Español

Autores: Óscar García Sierra, Ana Fernández-Pampillón Cesteros , Miguel Ortega Martín
Localización: Procesamiento del lenguaje natural, ISSN 1135-5948, Nº. 75, 2025 (Ejemplar dedicado a: Procesamiento del Lenguaje Natural, Revista nº 75, septiembre de 2025), págs. 29-40
Idioma: español
Títulos paralelos:
- A Morphological Tokenizer for Generating Vocabularies for Large Language Models in Spanish
Enlaces
- Texto completo
Resumen
- español
  En este artículo presentamos un segmentador para la generación de vocabularios de grandes modelos del lenguaje que, a diferencia de las aproximaciones estadísticas actuales, está basado en conocimiento morfológico y léxico del español. El objetivo es tratar de mejorar la eficacia de estos modelos, especialmente en tareas de carácter lingüístico, resolviendo los problemas de falta de relevancia, coherencia y corrección morfológica que presentan sus vocabularios estadísticos. El segmentador morfológico que presentamos divide los textos de entrada en morfemas reales del español en vez de en subpalabras frecuentes que no siempre coinciden con morfemas. Para ello utiliza un lexicón generado semiautomáticamente de 755.467 palabras y morfemas del español y una gramática, generada manualmente, de 234 reglas morfológicas. Hemos evaluado el segmentador y su vocabulario aplicando una metodología desarrollada en nuestro trabajo previo, y hemos podido comprobar que el segmentador morfológico genera un vocabulario con una corrección morfológica del 98% en un tiempo razonable de forma que pueda utilizarse con grandes modelos de lenguaje.
- English
  Here we present a tokenizer for the generation of vocabularies for large language models which, unlike current statistical approaches, is based on morphological and lexical knowledge of Spanish. The goal is to improve the effectiveness of these models, especially in linguistically-oriented tasks, by addressing issues related to the lack of relevance, coherence, and morphological accuracy found in statistical vocabularies. The morphological tokenizer we present splits input texts into actual Spanish morphemes rather than frequent subword units. To achieve this, it uses a semi-automatically generated lexicon of 755,467 Spanish words and morphemes, along with a manually crafted grammar containing 234 morphological rules. We evaluated the tokenizer and its vocabulary using a methodology developed in our previous work, and found that the morphological tokenizer produces a vocabulary with 98% morphological accuracy in a reasonable amount of time, making it suitable for its use with large language models.
Referencias bibliográficas
- Aït Mokhtar, S., y J. L. Rodrigo Mateos. (1995). Segmentación y análisis morfológico de textos en español utilizando el sistema SMORPH. Revista...
- Balakrishnan, V., y E. Lloyd-Yemoh. (2014). Stemming and lemmatization: A comparison of retrieval performances. Lecture notes on software...
- Bostrom, K., y G. Durrett. (2020). Byte pair encoding is suboptimal for language model pretraining. arXiv Preprint arXiv:2004.03720.
- Cañete, J., G. Chaperon, R. Fuentes, J.-H. Ho, H. Kang, y J. Pérez. (2023). Spanish pretrained BERT model and evaluation data. arXiv Preprint...
- Carreras, X., I. Chao, L. Padró, y M. Padró. (2004, May). FreeLing: An Open-Source Suite of Language Analyzers. In LREC (pp. 239-242).
- Church, K. W. (2020). Emerging trends: Subwords, seriously? Natural Language Engineering, 26(3), 375–382.
- Devlin, J., M.-W. Chang, K. Lee, y K. Toutanova. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding....
- Fang, H., M. Ostendorf, P. Baumann, y J. Pierrehumbert. (2015). Exponential language modeling using morphological features and multi-task...
- Friedman, R. (2023). Tokenization in the Theory of Knowledge. Encyclopedia, 3(1), 380-386.
- Jurafsky, D., y J. H. Martin. (2025). Large language models (Chap. 10). En Speech and language processing: An introduction to natural language...
- García-Sierra, O., A. Fernández-Pampillón, y M. Ortega-Martín. (2024a). Evaluación morfológica de los vocabularios de subpalabras utilizados...
- García-Sierra, O., A. Fernández-Pampillón, y M. Ortega-Martín. (2024b). Morphological evaluation of subwords vocabulary used by BETO language...
- Grönroos, S. A., S. Virpioja, P. Smit, y M. Kurimo. (2014, August). Morfessor FlatCat: An HMM-based method for unsupervised and semi-supervised...
- Gutierrez-Vasques, X., A. Medina-Urrea, y G. Sierra. (2019). Morphological segmentation for extracting Spanish-Nahuatl bilingual lexicon....
- Hofmann, V., J. Pierrehumbert, y H. Schütze. (2021). Superbizarre is not superb: Derivational morphology improves bert’s interpretation of...
- Honnibal, M., y I. Montani. (2017). spaCy 2: Natural language understanding with Bloom embeddings, convolutional neural networks and incremental...
- Kudo, T., y J. Richardson. (2018). Sentencepiece: A simple and language independent subword tokenizer and detokenizer for neural text processing....
- Lan, Z., M. Chen, S. Goodman, K. Gimpel, P. Sharma, y R. Soricut. (2019). ALBERT: A lite BERT for self-supervised learning of language representations....
- Liu, Y., M. Ott, N. Goyal, J. Du, M. Joshi, D. Chen, … V. Stoyanov. (2019). RoBERTa: A Robustly Optimized BERT Pretraining Approach. arXiv...
- Mager, M., A. Oncevay, E. Mager, K. Kann, y N. T. Vu. (2022). BPE vs. morphological segmentation: A case study on machine translation of four...
- Méndez-Cruz, C. F., A. Medina-Urrea, y G. Sierra. (2016). Unsupervised morphological segmentation based on affixality measurements. Pattern...
- Monson, C., J. Carbonell, A. Lavie, y L. Levin. (2007). ParaMor: Minimally Supervised Induction of Paradigm Structure and Morphological Analysis....
- Molino de Ideas. (2012). Los verbos en español. Biblioteca Molino de Ideas. ISBN 978-84-937706-1-7. https://www.onoma.es/
- Park, K., J. Lee, S. Jang, y D. Jung. (2020). An Empirical Study of Tokenization Strategies for Various Korean NLP Tasks. arXiv Preprint arXiv:2010.02534.
- Porter, M. F. (2001). Snowball: A language for stemming algorithms.
- Radford, A., K. Narasimhan, T. Salimans, I. Sutskever, y Otros. (2018). Improving language understanding by generative pretraining.
- Real Academia Española. (s.f.). Cultura. En Diccionario de la lengua española. Recuperado en 10 de febrero de 2019, de https://dle.rae.es/cultura?m=form
- Real Academia Española. (2009). Nueva gramática de la lengua española (Vol. 2). Madrid: Espasa Libros.
- Sennrich, R., B. Haddow, y A. Birch. (2015). Neural machine translation of rare words with subword units. arXiv Preprint arXiv:1508.07909.
- Schuster, M., y K. Nakajima. (2012). Japanese and korean voice search. 2012 IEEE International Conference on Acoustics, Speech and Signal...
- Song, X., A. Salcianu, Y. Song, D. Dopson, y D. Zhou. (2020). Fast wordpiece tokenization. arXiv preprint arXiv:2012.15524.
- Suárez, P. J. O., B. Sagot, y L. Romary. (2019). Asynchronous pipeline for processing huge corpora on medium to low resource infrastructures....
- Suárez, P. J. O., L. Romary, y B. Sagot. (2020). A monolingual approach to contextualized word embeddings for mid-resource languages. arXiv...
- Van der Wouden, T. (1990). Celex: Building a multifunctional polytheoretical lexical data base. Proceedings of BudaLex, 88, 363–373.
- Vaswani, A., N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, … I. Polosukhin. (2017). Attention is all you need. Advances in Neural...
- Virpioja, S., P. Smit, S. A. Grönroos, y M. Kurimo. (2013). Morfessor 2.0: Python implementation and extensions for Morfessor Baseline.
- Wu, Y., M. Schuster, Z. Chen, Q. V. Le, M. Norouzi, W. Macherey, … Otros. (2016). Google’s neural machine translation system: Bridging the...

Mi Hispadoc

Selección

Opciones de artículo

Seleccionado

Opciones de compartir

Opciones de entorno

Sugerencia / Errata

Acceso de usuarios registrados

Un Segmentador Morfológico para la Generación de los Vocabularios de Grandes Modelos de Lenguaje en Español

Mi Hispadoc

Opciones de artículo

Opciones de compartir

Opciones de entorno