Índices Invertidos en Diferentes modelos

 

Índices Invertidos en el Modelo Booleano

Es especialmente beneficioso para este modelo que las listas de documentos para cada término (posteo) se almacenen en orden creciente. Para resolver una consulta, el primer paso es buscar los términos dentro del vocabulario y luego recuperar los documentos asociados a estos dentro de las listas de posteo. Seguidamente se realizan las operaciones de conjuntos entre las listas y como se encuentran ordenadas, es posible operarlas recorriéndolas de manera secuencial. En consecuencia los documentos son retornados en su orden creciente. Durante la aplicación de las operaciones sobre los conjuntos de documentos, si una lista es muy corta y la otra es mucho más larga, se recomienda utilizar búsqueda binaria entre estas [1]. En la siguiente figura se muestra una representación de las listas de documentos dentro del procesamiento del modelo booleano:
Listas de documentos en modelo booleano
Listas de documentos en modelo booleano. Tomado de [1].
Un ejemplo a nivel general de la aplicación de índices invertidos en el modelo booleano es el siguiente [4]:
Se tienen los documentos: T0 = "it is what it is", T1 = "what is it" and T2 = "it is a banana". Esto da como resultado el índice invertido:
"a":      {2}
"banana": {2}
"is":     {0, 1, 2}
"it":     {0, 1, 2}
"what":   {0, 1}

Para resolver la consulta what and i and it se realiza la siguiente operación con las listas de documentos
Operación Listas de posteo
Retornando de esta manera los documentos 0 y 1.

Índices Invertidos en el modelo vectorial

Para el modelo vectorial es recomendado que el índice también almacene [1]:

  • La frecuencia normalizada  dentro de la lista de posteo.
  • El idf  y la máxima frecuencia de cada término en el vocabulario.
  • La lista de posteo este ordenada en orden decreciente de frecuencia normalizada.

La idea con el modelo vectorial es utilizar los datos almacenados en el índice para calcular la similitud entre la consulta realizada y los documentos almacenados en posteo. Cómo la lista de documentos se encuentra ordenada por frecuencia del término, es posible en algunos cosos es posible obviar documentos que probablemente no sean muy relevantes y no afecten el ranking.
Esto último es especialmente importante en las búsquedas web, ya que la mayoría de motores de búsqueda tienen más interés en recuperar los documentos más relevantes (precisión) que en retornar absolutamente todos los documentos relevantes. En la siguiente imagen se muestra  representada esta idea:
Indice en modelo vectorial
Posteo de modelo vectorial .Tomada de [1]