Mario Almagro, Diego Ortego, David Jiménez
Recomendar productos es la tarea de, dada una consulta, recuperar los elementos más cercanos dentro de una base de datos. Aunque se trata de un problema conocido, su integración en sistemas de producción reales no se ha estudiado en profundidad. Estos sistemas tienen elevados requerimientos de automatización, es decir, alta proporción de predicciones relevantes. Los modelos determinan la relevancia de cada sugerencia mediante un umbral de decisión que actúa sobre los valores de similitud, enviando a revisi´on manual aquellos que no superan dicho umbral. En este artículo proponemos ALC, una estrategia de aprendizaje auxiliar que mejora la cobertura mediante el aprendizaje de representaciones de grano fino, las cuales se obtienen gracias a utilizar los negativos más difíciles dentro de cada lote de entrenamiento, mejorando así su discriminabilidad. Validamos nuestra propuesta usando algoritmos de clasificación extrema en dos datasets: LF-AmazonTitles-131K y Tech&Durables (privado), demostrando ratios de cobertura del estado del arte cuando se combina con un método de umbralización consistente.
Product recommendation is the task of recovering the closest items to a given query within a large product corpora. Generally, one can determine if top-ranked products are related to the query by applying a similarity threshold; exceeding it deems the product relevant, otherwise manual revision is required. Despite being a well-known problem, the integration of these models in real-world systems is often overlooked. In particular, production systems have strong coverage requirements, i.e., a high proportion of recommendations must be automated. In this paper we propose ALC, an Auxiliary Learning strategy that boosts Coverage through learning fine-grained embeddings. Concretely, we introduce two training objectives that leverage the hardest negatives in the batch to build discriminative training signals between positives and negatives. We validate ALC using three extreme multi-label classification approaches in two product recommendation datasets; LF-AmazonTitles-131K and Tech&Durables (proprietary), demonstrating state-of-the-art coverage rates when combined with a recent threshold-consistent margin loss.