Índices Invertidos

 

Los índices invertidos son la estructura más utilizada para la recuperación de palabras. Almacenan cada término y la lista de documentos en los que este aparece. Esto permite un acceso directo la búsqueda de documentos asociados cada palabra durante la resolución de consultas. Existen dos variantes principales: Índice invertido a nivel de registro (record level inverted index)  en el que únicamente se almacena la referencia al documento o que contiene la palabra, y Índice invertido a nivel de palabra (word level inverted index) que adicionalmente guarda la posición del término dentro del documento. Este último ofrece mayor funcionalidad, sin embargo el tiempo para crearlo y el espacio para almacenarlo son mucho mayores [4].
Un índice invertido en su forma más simple esta compuesto por un vocabulario que es la lista de términos y un posteo que es la lista de documentos a los cuales estas pertenecen. Para cada modelo de RI el índice es variado para presentar facilidades específicas a este [1]. Por ejemplo la estructura también puede contener otros datos para cada termino necesarios para procesar una consulta del usuario, y estos datos serán diferentes entre cada modelo (los datos requeridos por el modelo vectorial no son los mismos que los requeridos por el modelo booleano). En la imagen mostrada a continuación se muestra la forma básica de un índice invertido:
Forma básica de un índice
Forma básica de un índice invertido. Tomado de [1].