Espacio extra de los Índices

 

En este punto es importante tener encueta dos leyes que nos permiten tener una idea del tamaño que puede llegar a ocupar un índice a partir del tamaño de los textos. La primera es la ley de Heaps que dice que un texto de tamaño n crece menos de 1% de n. La segunda ley es la de Zipf que indica una pocas palabras aparecen muchas veces y muchas palabras aparecen poco. Esto es que la cantidad de stopwords o palabras vacías es mucho mayor que la cantidad de palabras claves [1]. En la siguiente imagen se puede observar estas leyes y su impacto en los índices:Leyes de heap y zips
                Ley de Heaps y Ley de Zipf en índices. Tomado de [1]
En la siguiente tabla se muestran la cantidad de tamaño extra que pueden tomar el índice con respecto al texto original y a otros factores como el modelo utilizado o técnicas especiales de compresión [1]:


Modelo o técnica

Espacio utilizado extra sobre el texto

Modelo booleano con compresión

10% a 25%

Modelo vectorial

15% a 30%

Índice a nivel de palabra

25% a 45%

Direccionamiento de bloques

4% para colecciones no muy grandes

Compresión de texto

25% a 30%