Latent semantic indexing是一项基于SVD分解的语义级别的文本索引技术。
具体步骤如下:
一、创建矩阵
X 的行为词,列为文档,X[ i, j ]为第i个词在第j篇文档之中出现的次数。对X进行SVD分解。得到
T和D都是正交向量,S是奇异值的对角阵。
得到T和D之后,就可以对原坐标进行变换,将较大奇异值所对应的特征向量保留下来。使T’和D’对原坐标进行变换,得到语义空间的坐标。提供三种比较,
1. 词与词之间的比较
2. 文档与文档之间的比较
3. 词与文档之间的比较
二、检索
例如,我们新输入一串关键词(在这里我们看作是小型的文档)。我们的目标是找出与我们输入的关键词语义相近的一系列文档。对关键词建立矩阵Xq。
然后,Dq就可以像D的行向量一样,用来乘以S1/2或者S,来和TS1/2或者DS的行做cos比较了。
参考照料为:indexing by latent semantic analysis 1990