关键词提取的经典算法之一,通过统计的方法,以tfidf值作为衡量一个词在文章中重要程度的标准。
词频(TF)=词在文章中出现的次数/文章总词数
文档频率(DF)= 关键词在整个语料所有文章中出现的次数
倒文本频率(iDF) = 文本频率的倒数
如果一个词越常见,那么分母就越大,逆文档频率就越小越接近0。分母之所以要加1,是为了避免分母为0(即所有文档都不包含该词)。log表示对得到的值取对数。
TF-iDF
关键词提取的经典算法之一,通过统计的方法,以tfidf值作为衡量一个词在文章中重要程度的标准。
词频(TF)=词在文章中出现的次数/文章总词数
文档频率(DF)= 关键词在整个语料所有文章中出现的次数
倒文本频率(iDF) = 文本频率的倒数
如果一个词越常见,那么分母就越大,逆文档频率就越小越接近0。分母之所以要加1,是为了避免分母为0(即所有文档都不包含该词)。log表示对得到的值取对数。
TF-iDF