Presentamos un método de clasificación de marcadores del discurso. A partir de una taxonomía generada inductivamente en un trabajo anterior, desde un corpus paralelo de gran tamaño y utilizando una técnica de clustering, proponemos ahora un sistema que permite clasificar un marcador discursivo no incluido en esa taxonomía en alguna de las categorías emergentes. Está basado en el cálculo de la similitud estadística entre el nuevo marcador y las categorías. Destacamos la naturaleza cuantitativa del enfoque, que permite la reproducción del experimento en otras lenguas. Además, el sistema propuesto es un clasificador multicategoría, y esto es importante ya que representa un primer acercamiento al estudio de la polifuncionalidad de los marcadores del discurso desde un enfoque empírico e inductivo.
We present a method for the categorization of discourse markers. Starting from the result of a previous research, in which we generated a taxonomy of discourse markers by inductive methods from parallel corpus, we propose now a method to classify new discourse markers in one or more of the categories discovered in our previous research. The method is based on the statistical similarity between a new marker and the emerging categories. We highlight the quantitative nature of the approach, because it will allow to replicate experiments in other languages. Furthermore, ours is a multi-label classification method, which is important because it represents a first approach to the study of the polyfunctionality of discourse markers from an empirical and inductive point of view.