TF-IDF值:http://www.cnblogs.com/iwaitu/archive/2011/12/28/2304714.html
一种统计方法,用于评估一个词对N篇文章中的一篇的重要性。一个词在一片文章中出现的次数不能表明该词的重要性,例如:“我们”,“的”等,所以需要TF-IDF值来表示该词的重要性。
TF(Term Frequency)词频:该文章中出现该词的次数除以文章总词数。
IDF(Inverse Document Frequency)逆向文档词频:IDF=log(D/Dt),即总文章数(D)除以该词出现的文章数(Dt),对商取对数(log)
TF-IDF = TF值 * IDF值
如:在1000篇文章中,其中一篇共分得100关键词,其中“互联网”一词出现了5次,那么该词的词频为TF=5/100=0.05.如果该词出现在200篇文章中,那么逆向文档词频为IDF=log(1000/200)=2.12,最后TF-IDF值为TF-IDF=0.05*2.12=0.106。
对于“我们”,“的”等一些常见词语的TF-IDF值较低的原因在于出现这些词的文章数较多,那么D/Dt值就会较小,导致IDF值较小,所以这些常见词的TF-IDF值较小,对于一篇文章的重要性也就较低了。
向量空间模型(VSM):
http://www.cnblogs.com/hql5202004/archive/2009/04/09/1432543.html
向量空间模型:在向量空间模型中,文本用D(Document)表示,特征项(Term)用t表示,特征项指出现在文本D中并能够代表文本D的内容的基本语言单位,可以由词或者短句构成。文本可以用特征项进行表示D(t1,t2,t3…tn),其中ti(1<=k<=n)表示特征项。通常在建立向量空间模型时,一般都会给每个特征项一个权值来表示该特征项对该文本的重要性,权值的取定有多种方式,常见的就是取TF-IDF值。即D(t1,w1,t2,w2,t3,w3,…tn,wn),可简化为D(w1,w2,w3…wn),我们把这个称为该文本的向量表示。如:某文本的特征项为a,b,c,d,权值为:40,30,20,10。那么该文本的向量表示为D(40,30,20,10)。
余弦相似度:
在向量空间模型中,两个文本D1和D2之间的内容相关度Sim(D1,D2)常用向量之间夹角的余弦值表示,公式为:
简化点就是:
其中D1,D2为文本D1,D2的向量表示,|D1|,|D2|分别表示向量D1,D2的模。例如文本D1的特征项为a,b,c,d,权值分别为30,20,20,10,类目C1的特征项为a,c,d,e,权值分别为40,30,20,10,则D1的向量表示为D1(30,20,20,10,0),C1的向量表示为C1(40,0,30,20,10)【此处两个文本的向量表示的特征项为两文本特征项的并集,一文本中没有该特征项则值为0】,则根据上式计算出来的文本D1与类目C1相关度Sim(D1,D2)= 0.86。
相关数学知识:
在数学当中,n维向量是 V{v1,
v2, v3, ..., vn}
他的模: |v| = sqrt ( v1*v1 + v2*v2 + ... + vn*vn )
两个向量的点击 m*n = n1*m1 + n2*m2 + ...... + nn*mn