Resumen: Presentamos resultados sobre una forma de selección de términos con fines de categorización de textos. Usamos el punto de transición, esto es, la frecuencia de un termino en un texto o colección de textos que divide en dos a los términos: los de alta y baja frecuencia. Se tomaron porcentajes de términos basados en valores de su frecuencia entre documentos, la ganancia de información y la prueba. El desempeño de la categorización, entrenando el algoritmo de Rocchio con estos términos, fue comparado con un recorte hecho a la cantidad de términos en función de su frecuencia comparada con el punto de transición de la colección de entrenamiento. En un experimento, aplicado a la categorización de textos en español, fueron usados los mencionados criterios de selección y se observó una disminución de términos, manteniendo al menos el mismo desempeño. En nuestro experimento, el mejor desempeño lo obtuvo la selección basada en los valores de frecuencia de términos entre documentos combinada con el punto de transición.
Preliminary results on a way to reduce terms for text categorization are presented. We have used the transition point; a frequency which splits the words of a text into high frequency words and low frequency words. Thresholds outcoming from document frequency of terms, Information Gain and X2 were tested in combination with the transition point. A text categorization experiment based on Rocchio's method showed that selecting terms whose frequency is lesser than the transition point discarded noise terms without diminishing the categorization task performance. In our experiment, the best result was for term selection based on document frequency of terms threshold in combination with the transition point as a cut.