En la detección automática de plagio con referencia, los fragmentos de texto de un documento sospechoso son buscados de manera exhaustiva en un conjunto de documentos originales (de referencia) con el objetivo de determinar si han sido plagiados o no. Uno de los factores más importantes para el éxito de este tipo de aplicaciones es el tamaño del corpus de referencia el cual, al mismo tiempo, puede representar un problema al considerar el desempeño y la precisión. En este artículo, abordamos la detección automática de plagio con referencia analizando el impacto de una etapa previa de reducción del espacio de búsqueda (conformado por los documentos originales en el corpus de referencia). Nuestros experimentos sobre el corpus METER muestran una mejora en la Precisión y Cobertura de los resultados obtenidos cuando la reducción del espacio de búsqueda es realizada al principio del proceso de detección de plagio.
In automatic plagiarism detection with reference, the text fragments in a suspicious document are exhaustively searched in a set of original (reference) documents in order to determine whether they have been plagiarised or not. One of the most important factors for the success of this kind of applications is the size of the reference corpus that, at the same time, may represent a problem when we consider performance and precision. In this paper, we approach automatic plagiarism detection analysing the impact of a preliminary search space reduction (composed of the original documents in the reference corpus). Our experiments over the METER corpus show that the Precision and Recall of the obtained results are improved when a search space reduction is applied at the beginning of a plagiarism detection process.