Andrea de la Inmaculada Carcelén Guerrero
La creación de un corpus oral, definido como una colección de grabaciones de habla natural dispuestas para su tratamiento computacional, presenta varios desafíos que deben ser considerados cuidadosamente para garantizar su calidad y utilidad. En un corpus de las características del que se presenta a continuación, el corpus ESPRINT de conversación conflictiva entre personas con una relación íntima, el reto principal tiene que ver con atender a los principios ético-legales que implica tanto su recopilación, como su posterior procesamiento para el análisis lingüístico. En todo caso, debe garantizarse el derecho a la privacidad de los participantes y su anonimato. El corpus ESPRINT presenta una doble naturaleza, por un lado conversacional (ESPRINT-Conversación), por otro, terapéutica (ESPRINT-Terapias), hecho que implica dos modos de recogida, así como de tratamiento de los datos, de gestión de la privacidad y del almacenamiento y análisis, puesto que las terapias se graban en un contexto clínico sociosanitario con especificidades en cuanto al acceso a los datos, que obliga a un estricto protocolo de almacenamiento y una política clara sobre quién puede acceder al corpus, con qué fines y bajo qué condiciones, respetando los derechos de intimidad y los acuerdos de consentimiento. Además, en ambos casos, deben extremarse las precauciones dado el contenido sensible de las grabaciones. Las actuaciones llevadas a cabo desde la dirección del corpus ESPRINT en materia de protección de datos garantizan el cumplimiento de los preceptos legales, así como la salvaguarda del derecho a la intimidad y el tratamiento ético de los datos.
The creation of an oral corpus, defined as a collection of natural speech recordings arranged for computational processing, presents several challenges that must be carefully considered to ensure its quality and usefulness. In a corpus of the characteristics of the one presented below, the ESPRINT corpus of conflicting conversation between people with an intimate relationship, the main challenge has to do with attending to the ethicaland legal principles involved in both its collection and its subsequent processing for linguistic analysis. In any case, the participants’s right to privacy and anonymity must be guaranteed. The ESPRINT corpus has a dual nature, on the one hand conversational (ESPRINT-Conversation), on the other hand therapeutic (ESPRINT-Therapies), which implies two modes of collection, as well as data processing, privacy management, storage and analysis, since therapies are recorded in a socio-health context with specificities in terms of data access, which requires a strict storage protocol and a clear policy on who can access the corpus, for what purposes and under what conditions, respecting privacy rights and consent agreements. Furthermore, in both cases, extreme precautions must be taken given the sensitive content of the recordings.The actions carried out by the corpus management in the area of data protection guarantee compliance with the legal precepts in this regard, as well as the safeguarding of the right to privacy.