La matriz de similitud
La mayoría de los métodos de agrupamiento están basados en el emparejamiento de los documentos o grupos más similares
- Es necesario conocer la similitud entre cada pareja de puntos
- Se necesita entonces calcular la matriz de similitud
- Si la medida de similitud es simétrica (Sij=Sji) bastará con la matriz triangular inferior
Si la medida de similitud vale 0 cuando no hay términos en común
es útil un índice invertido que muestre los documentos en que aparece un término dado
- De esta forma se podrá limitar la cantidad de cálculo requerido para la matriz a la de las parejas de documentos/grupos que tengan al menos un término en común