文本聚类(Text clustering)文档聚类主要是依据著名的聚类假设:同类的文档相似度较大,而不同类的文档相似度较小。
作为一种无监督的机器学习方法,聚类由于不需要训练过程,以及不需要预先对文档手工标注类别,因此具有一定的灵活性和较高的自动化处理能力,已经成为对文本信息进行有效地组织、摘要和导航的重要手段,为越来越多的研究人员所关注。
k均值,布朗聚类,tf-idf聚类,主题模型和潜在的Dirichlet分配(也称为LDA)
https://baijiahao.baidu.com/s?id=1662332851716390246&wfr=spider&for=pc