• 聚类相关


    归一化:能够将大量反复特征聚合为单一特征,降低反复带来的类似度差异。方法: Vx = Vx /abs(v1)+...abs(Vn)

    词干处理:(变形词,允许词,近义词聚合) 降低特征的反复性 imaging-images buy-bought 我-俺 早餐-早饭.......

    停用词:(弱特征)大量出现的没有实际特征意义的虚词,副词,语气词等  I ,am, is ,a,an,always 我,啊,了,个,的.........

    停用词兴奋剂:(词频-反转文档频率(TF-IDF)) 大量的停用词出如今某部分文档中而极少出如今其他地方,反而成为某部分文档的强特征。


    扁平聚类:将对象分为一系列相互之间没有关联的簇。每一个簇中的的对象之间很类似。

    层次聚类:类似的对象聚集到一个簇中,类似的簇进一步聚集到一个超级簇中,逐步递归到形成一个簇。


    k均值:不断调整质心和簇的分配,反复迭代到某一阈值时,聚类收敛成功。

    其他类似度衡量方法:Cosin,Pearson,Jaccard系数等。


  • 相关阅读:
    Java入门——day28
    第四周进度报告
    Java入门——day27
    Java入门——day26
    Java入门——day25
    Java入门——day24
    Ubuntu创建新用户
    SpringBoot默认的Servlet容器是自带的Tomcat,如何定制和修改配置
    哈希
    找到两张相似的图
  • 原文地址:https://www.cnblogs.com/blfshiye/p/4550851.html
Copyright © 2020-2023  润新知