La lectura distante promete el acceso a "el gran sin leer", lo que debería permitir a los estudiosos repensar la historia de la literatura. Sin embargo, el aumento del volumen de datos no garantiza la comprensión de un corpus y su relación con el corpus literario. Este artículo analiza cómo se podría recopilar un corpus "completo" de los libros de poesía del siglo XIX en ruso teniendo en cuenta los datos históricos y el posible sesgo de supervivencia. Incluso si las fuentes bibliográficas no pueden proporcionar una lista completa de los libros impresos en un período determinado, la cantidad de "incompletitud" se puede estimar directamente con los modelos de especies no-vistas. La estimación de los índices de supervivencia de la poesía impresa muestra diferencias en la tasa de pérdida entre los diferentes tipos de fuentes: las ediciones convencionales, como los libros y las antologías, están bien conservadas, mientras que los cuadernillos y panfletos son la principal fuente esperada de pérdida. Estos hallazgos nos permiten estimar cómo puede ser un corpus "exhaustivo" y definir las características de "lo no leído" y lo "no visto" dentro de él.
Distant reading promises access to "the great unread", which should allow scholars to rethink the history of literature. However, the rise in volume of data does not guarantee the understanding of a corpus and its relation to the literary population. This article discusses how a "complete" corpus of the 19th-century poetry books in Russian might be collected with account for historical data and potential survivorship bias. Even if bibliographical sources cannot provide a complete list of books printed in a given period, the amount of "incompleteness" can be directly estimated with the unseen species models. The estimation of survival ratios for printed poetry shows differences in the loss rate across different types of sources: with conventional editions, like books and anthologies, are well-preserved, while booklets and pamphlets are the largest expected source of loss. These findings allow us to estimate what an "exhaustive" corpus can look like and define the features of "the unread" and "unseen" inside it.