Madrid, España
El etiquetado gramatical (part-of-speech tagging) es una técnica esencial del Procesamiento del Lenguaje Natural (PLN) que consiste en asignar etiquetas gramaticales a cada palabra en un determinado texto. Mientras que el etiquetado gramatical se ha estudiado de manera extensa en datos lingüísticos formales y bien estructurados, el etiquetado preciso de textos de habla coloquial plantea dificultades específicas. Este artículo tiene como finalidad explorar las dificultades a las que se enfrentan las técnicas de etiquetado gramatical a la hora de analizar e interpretar el habla coloquial. Se discuten fenómenos como el impacto en la precisión del etiquetado gramatical de los dialectos, la jerga, el contexto cultural y social y las disfluencias discursivas, entre otros. Además, tras una revisión del estado de la cuestión, se identifican soluciones potenciales y se establece una prospectiva de estudio que mejore el desempeño del etiquetado gramatical en contextos de habla coloquial.
Part-of-speech (POS) tagging is a fundamental Natural Language Processing (NLP) task that involves assigning grammatical labels to each word in a given text. While POS tagging has been extensively studied in formal, well-structured language data, the accurate tagging of colloquial speech corpora presents unique challenges. This paper aims to explore the difficulties faced when employing POS tagging techniques on colloquial speech texts. We discuss the impact of dialects, slang, cultural and social context, and speech disfluencies on the accuracy of POS tagging. Furthermore, after a review of the state of the art, we identify potential solutions and future research directions to improve the performance of POS tagging in colloquial speech contexts.