Abordamos el desafío de la Transferencia Translingüística Generalizada (G-XLT) en Respuesta a Preguntas extractiva, donde los idiomas de la pregunta y el contexto difieren, un problema particularmente difícil para idiomas con pocos recursos. Trabajando con solo mil muestras paralelas de QA, combinamos el muestreo translingüístico con la autodestilación de conocimiento para regularizar el ajuste fino translingüístico. Introducimos el novedoso coeficiente de Precisión media en k (mAP@k), que mitiga el impacto negativo de predicciones incorrectas durante el entrenamiento y sirve como herramienta de diagnostico que proporciona orientación temprana en el entrenamiento e indicadores confiables del aprendizaje del modelo. Las evaluaciones en los conjuntos de datos MLQA, XQuAD y TyDiQA-GoldP demuestran que nuestro enfoque supera consistentemente el ajuste fino de entropía cruzada estándar del modelo multilingüe mBERT. Nuestro método representa una alternativa prometedora a los enfoques basados en traducción automática, particularmente valiosa para idiomas con pocos recursos donde la calidad de traducción es deficiente, ofreciendo una solución eficiente para la transferencia translingüística en entornos con escasez de datos.
We address the challenge of Generalized Cross-Lingual Transfer (G-XLT) in extractive Question Answering, where question and context languages differ, a problem particularly difficult for low-resource languages. Working with only a thousand parallel QA samples, we combine cross-lingual sampling with self-knowledge distillation to regularize cross-lingual fine-tuning. We introduce the novel mean Average Precision at k (mAP@k) coefficient, which mitigates the negative impact of incorrect predictions during training and serves as a diagnostic tool providing early training guidance and reliable indicators of model learning. Evaluations on MLQA, XQuAD, and TyDiQA-GoldP datasets demonstrate that our approach consistently outperforms standard cross-entropy fine-tuning of the mBERT multilingual model. Our method represents a promising alternative to machine translation-based approaches, particularly valuable for low-resource languages where translation quality is poor, offering an efficient solution for cross-lingual transfer in data-scarce settings.