El análisis sintáctico de los textos es un proceso fundamental en el procesamiento del lenguaje natural que requiere disponer de la gramática correspondiente a la lengua considerada. La gramática puede obtenerse de un corpus anotado sintácticamente, pero tales corpora no existen para muchas lenguas. Esta razón ha provocado un interés creciente en los métodos no supervisados de inducción gramatical, que no requieren dichos corpora. Sin embargo, los resultados de estos métodos son menos precisos. Por este motivo nosotros hemos recurrido a información adicional menos costosa de obtener. Concretamente, en este trabajo estudiamos la forma de introducir el análisis sintáctico superficial para mejorar los resultados de la inducción gramatical no supervisada de un sistema basado en patrones léxicos. El análisis superficial o chunking identifica a los constituyentes de la oración, sin especificar su estructura interna. Los resultados han mostrado una mejora apreciable de los resultados a medida que se añaden distintos tipos de constituyentes.
Syntactic analysis of texts requires the availability of the grammar underlying the language. The grammar can be obtained from corpora syntactically annotated, but such corpora do not exist for many languages. This has led to a growing interest in unsupervised grammar induction, which does not require such annotations, but provides less accurate results. Aiming at improving the accuracy of this kind of approach, we have resorted to additional information, which can be obtained more easily. Shallow parsing or chunking identifies the sentence constituents, but without specifying their internal structure. In this work we have investigated how the results of a pattern-based unsupervised grammar induction system improve as data on new kind of phrase are added.