文档相似性匹配

1.TF-IDF简介

中文分词(Chinese Word Segmentation)指的是将一个汉字序列切分成一个一个单独的词。中文分词是文本挖掘的基础，对于输入的一段中文，成功的进行中文分词，可以达到电脑自动识别语句含义的效果。

　　TF-IDF（term frequency–inverse document frequency）是一种用于信息搜索和信息挖掘的常用加权技术。在搜索、文献分类和其他相关领域有广泛的应用。

　　TF-IDF的主要思想是，如果某个词或短语在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。TF词频(Term Frequency)指的是某一个给定的词语在该文件中出现的次数。IDF反文档频率(Inverse Document Frequency)的主要思想是：如果包含词条的文档越少，IDF越大，则说明词条具有很好的类别区分能力。

　　使用TF*IDF可以计算某个关键字在某篇文章里面的重要性，因而识别这篇文章的主要含义，实现计算机读懂文章的功能。

2、Lucene评分

System.out.println(searcher.explain(q, hits.id(i))); //打印评分细节

3.Solr字段配置

fields节点内定义具体的字段（类似数据库的字段），含有以下属性：

name：字段名
type：之前定义过的各种FieldType
indexed：是否被索引
stored：是否被存储（如果不需要存储相应字段值，尽量设为false）
multiValued：是否有多个值（对可能存在多值的字段尽量设置为true，避免建索引时抛出错误）

4.Solr设置优化中文分词器

相关阅读:
两种接口传送数据协议(xml和json)
两种访问接口的方式(get和post)
myeclipse 编写java代码提示 dead code 原因
svn文件冲突,树冲突详解
linux操作提示：“Can't open file for writing”或“operation not permitted”的解决办法
embed标签属性
程序员必读的书刊收藏
python实现冒泡排序和快速排序
python简单词频统计
Qt出现堆溢出(Error Code -1073741823)

原文地址：https://www.cnblogs.com/jintianfan/p/3509438.html