María Miró Maestre, Ernesto Luis Estevanell Valladares, Robiert Sepúlveda Torres, Armando Suárez Cueto
Los avances en el Procesamiento del Lenguaje Natural (PLN), derivados del increíble rendimiento de los Grandes Modelos del Lenguaje (LLMs), han motivado la investigación de niveles lingüísticos más complejos como la semántica y la pragmática. Sin embargo, el número de recursos disponibles anotados con información pragmática todavía es muy escaso para la mayoría de idiomas. Para abordar esta brecha de investigación presentamos un esquema de anotación en español para las intenciones comunicativas que consta de dos tipologías: una para identificar la intención global de un mensaje y otra para las intenciones de sus segmentos textuales. Al validar este esquema, presentamos INTENT-ES, el primer corpus en Español de tuits anotados con sus intenciones globales y segmentales. Aprovechamos este corpus para evaluar el desempeño de sistemas tradicionales de Machine Learning y los LLMs en la tarea de clasificación de intenciones. A la vista de los resultados, creemos que estos recursos serán de provecho para la comunidad investigadora de PLN al facilitar la evaluación de LLMs en tareas pragmáticas, además de permitir la integración de información pragmática en sistemas de PLN.
Recent advancements in Natural Language Processing (NLP), driven by the impressive performance of Large Language Models (LLMs), enable studies to address more complex linguistic levels such as semantics and pragmatics. However, available resources annotated with pragmatic information remain scarce for most languages. To address this gap, we present a Spanish annotation scheme for communicative intentions comprising two typologies: one for identifying the global intention of a message and another for the intentions of its textual segments. After validating the scheme, we introduce INTENT-ES, the first Spanish corpus of tweets annotated with their global and segment intentions. We leverage this corpus to evaluate the performance of traditional Machine Learning systems and current LLMs on intention classification. Considering the results, we believe these resources will benefit the NLP research community, facilitating the evaluation of LLMs in pragmatic tasks and integrating pragmatic information into NLP systems.