Miguel Menezes, M. Amin Farajian, Helena Moniz, João Graça
Hasta hace poco, la mayoría de los sistemas de traducción automática (TA) traducían las oraciones de forma aislada, pasando por alto un contexto crucial a nivel de documento debido a la escasez de datos de entrenamiento centrados en el discurso y a la falta de métodos de evaluación sólidos. Presentamos un marco de anotación sensible al contexto, validado sobre un conjunto de datos de atención al cliente con un acuerdo interanotador sustancial (κ de Cohen = 0,73), que podría ofrecer un nuevo estándar para la evaluación contextual de la TA.
Fins fa poc, la majoria dels sistemes de traducció automàtica (TA) traduïen les oracions de manera aïllada, i deixaven de banda un context clau a nivell de document a causa de l’escassetat de dades d’entrenament centrades en el discurs i de la manca de mètodes d’avaluació sòlids. Presentem un marc d’anotació sensible al context, validat sobre un conjunt de dades d’atenció al client amb un acord interanotador substancial (κ de Cohen = 0,73), que podria oferir un nou estàndard per a l’avaluació contextual de la TA.
Until recently, most machine translation (MT) systems translated sentences in isolation, neglecting crucial document-level context due to limited discourse-focused training data and a lack of robust evaluation methods. We introduce a context-aware annotation framework, validated on a customer support dataset with substantial inter-annotator agreement (Cohen’s κ = 0.73), potentially offering a new standard for contextual MT assessment.