Los discursos parlamentarios pueden resultar de interés para distintos ámbitos de investigación ya que son textos públicos, elaborados con arreglo a procedimientos regulados, a los que se han añadido datos sociodemográficos totalmente fiables como el género, la edad y otros detalles de los oradores. Además, los discursos son ricos en temas y dominios y son realmente datos de dominio público, es decir, que no están sujetos a restricciones de copyright. El proyecto ParlaMint: Towards Comparable Parliamentary Corpora está desarrollando un corpus multilingüe comparable y uniformemente anotado con datos de 33 parlamentos diferentes de Europa. Este artículo describe los detalles de la construcción del corpus ParlaMintCAT, para el que se han recopilado, procesado y anotado las transcripciones de las sesiones plenarias del Parlamento de Cataluña desde 2015 hasta 2022.
Parliamentary speeches are considered to be of interest for different research areas because they are publicly available transcriptions, produced under controlled and regulated procedures that add totally reliable sociodemographic data like gender, age, and other details of the speakers. Moreover, speeches are rich in topics and domains, and they are actually public domain data, not subject to copyright restrictions. The ParlaMint project: Towards Comparable Parliamentary Corpora is developing a comparable and uniformly annotated multilingual corpus with the data from 33 different parliaments in Europe. This paper describes the details of building the ParlaMintCAT corpus, for which the transcriptions of the Catalan Parliament General Assembly sessions from 2015 to 2022 have been compiled, processed and annotated.