Las preguntas de opción múltiple (MCQs) se emplean en una amplia variedad de contextos, que van desde la educación hasta la evaluación de las competencias técnicas de los empleados en una empresa. Sin embargo, crear este tipo de preguntas manualmente es una tarea difícil y costosa, especialmente en campos especializados. En este trabajo, exploramos la utilización de grandes modelos de lenguaje generativos (LLMs) para generar MCQs que sirvan para evaluar la cualificación técnica en el ámbito profesional. En este estudio, nos centramos en dos temáticas—primeros auxilios básicos y programación de la producción en las empresas— para los que creamos dos conjuntos de datos compuestos por cursos paralelos en español y euskera. La evaluación manual revela que tanto los modelos de código abierto Llama3 (8B y 70B) como el modelo propietario GPT-4o son capaces de generar MCQs de calidad aceptable para el español en un entorno zero-shot, sin que se observen diferencias notables en función del tamaño del modelo o del tipo de licencia, con rendimientos del 91%, 84% y 80 % para GPT-4o, Llama3-70B y Llama3-8B, respectivamente. Sin embargo, los resultados para el euskera muestran un descenso considerable, con un desempeño del 70% para GPT-4o, 59% para Llama3-70B y un bajo 27% para Llama3-8B. Finalmente, la generación basada en la estrategia fewshot utilizando el modelo fundacional Llama-eus-8B adaptado al euskera muestra un potencial prometedor.
Multiple-Choice Questions (MCQs) are widely applied across various domains, such as education and assessing the technical skills of staff in companies. However, creating such questions manually is challenging and time-consuming, especially for specialized fields. In this paper, we explore how generative large language models (LLMs) can be exploited to generate MCQs from instructional texts that serve as tests for vocational qualification assessment. We focus on two topics—basic first aid and production scheduling in companies—for which we created two datasets of parallel course texts in Spanish and Basque. The manual evaluation reveals that both the open-source Llama3 instructed models (8B and 70B) and the proprietary GPT-4o can generate MCQs of acceptable quality in a zero-shot setting for Spanish. No significant differences were observed in performance based on model size or licensing type, with performance rates of 91%, 84%, and 80% for GPT-4o, Llama3- 70B, and Llama3-8B, respectively. However, the results for Basque show a marked decline, with performance dropping to 70% for GPT-4o and 59% for Llama3-70B, and a notably low 27% for Llama3-8B. Finally, few-shot generation using Basqueadapted Llama-eus-8B foundational model shows promising potential.