Las transcripciones de las sesiones plenarias del Parlamento de Cataluña desde 2015 a 2022: el corpus ParlaMintCAT

Marilina Pisani; Núria Bel Rafecas; Rodolfo Zevallos

Las transcripciones de las sesiones plenarias del Parlamento de Cataluña desde 2015 a 2022: el corpus ParlaMintCAT

Autores: Marilina Pisani, Núria Bel Rafecas , Rodolfo Zevallos
Localización: Procesamiento del lenguaje natural, ISSN 1135-5948, Nº. 71, 2023, págs. 125-136
Idioma: varios idiomas
Títulos paralelos:
- Catalan Parliamentary Plenary Session Transcriptions from 2015 to 2022.: The ParlaMintCAT Corpus
Enlaces
- Texto completo

Dialnet Métricas: 1 Cita

Resumen
- Multiple
  Los discursos parlamentarios pueden resultar de interés para distintos ámbitos de investigación ya que son textos públicos, elaborados con arreglo a procedimientos regulados, a los que se han añadido datos sociodemográficos totalmente fiables como el género, la edad y otros detalles de los oradores. Además, los discursos son ricos en temas y dominios y son realmente datos de dominio público, es decir, que no están sujetos a restricciones de copyright. El proyecto ParlaMint: Towards Comparable Parliamentary Corpora está desarrollando un corpus multilingüe comparable y uniformemente anotado con datos de 33 parlamentos diferentes de Europa. Este artículo describe los detalles de la construcción del corpus ParlaMintCAT, para el que se han recopilado, procesado y anotado las transcripciones de las sesiones plenarias del Parlamento de Cataluña desde 2015 hasta 2022.
- English
  Parliamentary speeches are considered to be of interest for different research areas because they are publicly available transcriptions, produced under controlled and regulated procedures that add totally reliable sociodemographic data like gender, age, and other details of the speakers. Moreover, speeches are rich in topics and domains, and they are actually public domain data, not subject to copyright restrictions. The ParlaMint project: Towards Comparable Parliamentary Corpora is developing a comparable and uniformly annotated multilingual corpus with the data from 33 different parliaments in Europe. This paper describes the details of building the ParlaMintCAT corpus, for which the transcriptions of the Catalan Parliament General Assembly sessions from 2015 to 2022 have been compiled, processed and annotated.
Referencias bibliográficas
- Abercrombie, G. and R. Batista-Navarro. 2020. ParlVote: A corpus for sentiment analysis of political debates. In Proceedings of the Twelfth...
- Erjavec, T., M. Ogrodniczuk, P. Osenova, N. Ljubeˇsi´c, K. Simov, A. Panˇcur, M. Rudolf, M. Kopp, S. Barkarson, S. Steingr ´ımsson, et al....
- Honnibal, M. and I. Montani. 2017. spaCy 2: Natural language understanding with Bloom embeddings, convolutional neural networks and incremental...
- Jongejan, B., D. Hansen, and C. Navarreta. 2022. Enhancing clarin-dk resources while building the danish parlamint corpus. In Selected Papers...
- Külebi, B., C. Armentano-Oller, C. Rodriguez-Penagos, and M. Villegas. 2022. Parlamentparla: A speech corpus of catalan parliamentary sessions. In...
- Ménard, P. A. and D. Aleksandrova. 2022. A French corpus of Québec’s parliamentary debates. In Proceedings of the Workshop ParlaCLARIN III...
- Naderi, N. and G. Hirst. 2018. Automatically labeled data generation for classification of reputation defence strategies. In D. Fiˇser, M....
- Nivre, J., Z. Agic, (... et al) 2020. Universal Dependencies v2: An evergrowing multilingual treebank collection. In Proceedings of the Twelfth...
- Ogrodniczuk, M. and B. Niton. 2020. New developments in the Polish parliamentary corpus. In Proceedings of the Second ParlaCLARIN Workshop,...
- Ogrodniczuk, M., P. Osenova, T. Erjavec, D. Fiˇser, N. Ljubeˇsi´c, C， . C， öltekin, M. Kopp, and M. Katja. 2022. Parlamint ii:...
- Onur Gungor, M. T. and C， agıl Sönmez. 2018. A corpus of grand national assembly of turkish parliament’s transcripts. In D. Fiˇser,...
- Osnabrügge, M., E. Ash, and M. Morelli. 2023. Cross-domain topic classification for political texts. Political Analysis, 31(1):59–80.
- Padró, L. and E. Stanilovsky. 2012. Freeling 3.0: Towards wider multilinguality. In LREC2012.
- Pisani, M. 2022. Árboles, Gráficos y Matrices de Datos. Codificación en TEI de un Corpus de Interacciones Parlamentarias con Python. Final...
- Qi, P., Y. Zhang, Y. Zhang, J. Bolton, and C. D. Manning. 2020. Stanza: A Python natural language processing toolkit for many human languages....
- Straka, M. 2022. Universal dependencies 2.10 models for UDPipe 2 (2022-07-11). LINDAT/CLARIAH-CZ digital library at the Institute of Formal...
- Truan, N. and L. Romary. 2021. Building, Encoding, and Annotating a Corpus of Parliamentary Debates in XML-TEI: A Cross-Linguistic Account....

Mi Hispadoc

Selección

Opciones de artículo

Seleccionado

Opciones de compartir

Opciones de entorno

Sugerencia / Errata

Acceso de usuarios registrados

Las transcripciones de las sesiones plenarias del Parlamento de Cataluña desde 2015 a 2022: el corpus ParlaMintCAT

Mi Hispadoc

Opciones de artículo

Opciones de compartir

Opciones de entorno