Valparaíso, Chile
En este trabajo se presenta un nuevo categorizador de texto para bases de datos documentales. El categorizador propuesto corresponde a una extensión del categorizador Naive Bayes que permite obtener buenos resultados en bases documentales con desbalance en datos de entrenamiento. Resultados experimentales permiten afirmar que el categorizador supera a Naive Bayes y se compara favorablemente con otras técnicas más sofisticadas como máquinas de soporte vectorial y regresión logística sin incurrir en costos computacionales significativos en la fase de entrenamiento
We introduce a new text categorization method for documentary databases. The proposed method is an extension of the Naive Bayes text categorization model which allows obtaining good performance results in documentary databases with unbalanced training data. Experimental results allow us to conclude that the categorization method overcomes Naive Bayes and compares favorably with more sophisticated categorization methods such as support vector machines and logistic regression without increasing the use of computational resources in the training phase