聚类相关

归一化：能够将大量反复特征聚合为单一特征，降低反复带来的类似度差异。方法: Vx = Vx /abs(v1)+...abs(Vn)

词干处理：(变形词，允许词，近义词聚合) 降低特征的反复性 imaging-images buy-bought 我-俺早餐-早饭.......

停用词：（弱特征）大量出现的没有实际特征意义的虚词，副词，语气词等 I ,am, is ,a,an,always 我，啊，了，个，的.........

停用词兴奋剂：(词频-反转文档频率(TF-IDF)) 大量的停用词出如今某部分文档中而极少出如今其他地方，反而成为某部分文档的强特征。

扁平聚类：将对象分为一系列相互之间没有关联的簇。每一个簇中的的对象之间很类似。

层次聚类：类似的对象聚集到一个簇中，类似的簇进一步聚集到一个超级簇中，逐步递归到形成一个簇。

k均值：不断调整质心和簇的分配，反复迭代到某一阈值时，聚类收敛成功。

其他类似度衡量方法：Cosin,Pearson,Jaccard系数等。

相关阅读:
Java入门——day28
第四周进度报告
Java入门——day27
Java入门——day26
Java入门——day25
Java入门——day24
Ubuntu创建新用户
SpringBoot默认的Servlet容器是自带的Tomcat，如何定制和修改配置
哈希
找到两张相似的图

原文地址：https://www.cnblogs.com/blfshiye/p/4550851.html