El análisis de sentimientos sigue siendo una de las tareas más relevantes en PLN. No obstante, las lenguas con escasos recursos carecen de conjuntos de datos y modelos suficientes para esta tarea. En este trabajo, presentamos un estudio sobre el análisis de sentimientos en gallego, analizando cómo los fenómenos lingüísticos pueden influir en esta tarea. Para ello, desarrollamos Senti-Gal, un dataset con 998 oraciones que incluyen oraciones adversativas, concesivas y condicionales, fenómenos diglósicos, negación e ironía. Evaluamos Senti-Gal en siete modelos: un modelo multilingüe de aprendizaje automático, un modelo solo-decodificador (o generativo) multilingüe y cinco modelos solocodificador (tres multilingües y dos monolingües), todos ellos ajustados con un conjunto de datos de entrenamiento que desarrollamos. Los resultados indican que los modelos solo-codificador ajustados con el conjunto de datos superan a los solo-decodificador, que los fenómenos sintácticos y pragmáticos siguen siendo un desafío y que los modelos monolingües y multilingües tienen rendimientos similares. Liberamos Senti-Gal, los modelos ajustados y el primer corpus gallego de entrenamiento para análisis de sentimientos de libre acceso.
Sentiment analysis is still one of the most relevant tasks in NLP. However, lowresource languages lack sufficient datasets and models for this task. In this paper, we present a study on sentiment analysis in Galician, analyzing how linguistic phenomena can influence this task. For this purpose, we developed Senti-Gal, a dataset with 998 sentences including adversative, concessive and conditional sentences, diglossic phenomena, negation and irony. We evaluated Senti-Gal on seven models: a multilingual machine learning model, a multilingual decoder-only (or generative) model, and five encoder-only models (three multilingual and two monolingual), all of them fine-tuned with a training dataset we also developed. The results indicate that the best fine-tuned encoder-only models outperform the decoder-only model, that syntactic and pragmatic phenomena remain a challenge, and that monolingual and multilingual models perform similarly. We release Senti-Gal, the fine-tuned models and the first Galician training corpus for sentiment analysis freely available.