Los Modelos de Lenguaje Extensos (LLMs, por sus siglas en inglés) están cada vez más al centro de los avances en la IA generativa en diversos dominios. Aunque algunos consideran que estos modelos representan un posible paso hacia la inteligencia general artificial, su capacidad para realizar razonamientos causales complejos sigue sin estar verificada. El razonamiento causal, especialmente en los niveles de intervención y contrafactual propuestos por Pearl, es fundamental para alcanzar una inteligencia general auténtica. En este estudio, proponemos un marco de razonamiento causal que incluye una taxonomía de tres ejes para la causalidad, diseñada para capturar la intención, los requisitos de acción y los tres niveles de causalidad definidos por Pearl: asociacional, intervencional y contrafactual; además de un enfoque de “humano en el circuito” para generar golden collections de preguntas causales naturales, anotadas de acuerdo con la taxonomía propuesta. Evaluamos las preguntas iniciales de una colección dorada en portugués utilizando los LLM GPT-4o y Llama3.1 con dos estrategias de prompt. Nuestros hallazgos revelan que ambos LLM enfrentan desafíos significativos al abordar preguntas causales intervencionales y contrafactuales. Estos resultados sugieren limitaciones en el uso indiscriminado de estos LLM para extender la anotación a preguntas naturales adicionales o para desarrollar agentes de IA causales basados en LLM.
Large Language Models (LLMs) are increasingly central to advancements in generative AI across various domains. While some view these models as a potential step toward artificial general intelligence, their capacity to perform complex causal reasoning remains unverified. Causal reasoning, particularly at Pearl’s interventional and counterfactual levels, is critical for achieving true general intelligence. In this study, we propose a causal reasoning framework that includes a three-axis taxonomy for causality, designed to capture the intent, action requirements, and the three rungs of causality as defined by Pearl: associational, interventional, and counterfactual; and a human-in-the-loop approach to generate golden collections of natural causal questions, annotated according to the proposal taxonomy. We evaluated the seed questions of a golden collection in Portuguese using the LLM GPT-4o and Llama3.1 with two prompt strategies. Our findings reveal that both LLMs face significant challenges in addressing interventional and counterfactual causal queries. These results suggest limitations in the indiscriminate use of these LLMs for extending annotation to additional natural questions or for developing LLM-based causal AI agents.