En este artículo se describe el trabajo en el contexto del proyecto de investigación CRATER (Corpus Resoruces And Terminology ExtRaction, MLAP-93/20), financiado por la Comisión de las Comunidades Europeas. En particular, se tratan los problemas de adaptación del Etiquetador Morfosintáctico de Xerox al español con el fin de etiquetar la versión española del corpus de la Unión Internacional de Telecomunicaciones (ITU). Se presenta brevemente el modelo implementado por este etiquetador junto con algunas modificaciones llevadas a cabo para incorporar en el sistema parámetros no estimados probabilísticamente. Asimismo, se discuten algunas decisiones iniciales, como el conjunto de etiquetas (tagset), el lexicon y el corpus de entrenamiento. Finalmente, se muestran los resultados y se justifican los beneficios de un modelo mixto como el propuesto.
This paper describes work performed withing the CRATER (Corpus Resources And Terminology ExtRaction, MLAP-93/20) project, funded by the Commission of the European Communities. In particular, it addresses the issue of adapting the Xerox Tagger to Spanish in order to tag the Spanish version of the ITU (International Telecommunications Union) corpus. The model implemented by this tagger is briefly presented along with some modifications performed on it in order to use some parameters not probabilistically estimated. Initial decisions, like the tagset, the lexicon and the training corpus are also discussed. Finally, results are presented and the benefits of the mixed model justified.