• 文档相似性匹配


    1.TF-IDF简介

    中文分词(Chinese Word Segmentation)指的是将一个汉字序列切分成一个一个单独的词。中文分词是文本挖掘的基础,对于输入的一段中文,成功的进行中文分词,可以达到电脑自动识别语句含义的效果。

      TF-IDF(term frequency–inverse document frequency)是一种用于信息搜索和信息挖掘的常用加权技术。在搜索、文献分类和其他相关领域有广泛的应用。

      TF-IDF的主要思想是,如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TF词频(Term Frequency)指的是某一个给定的词语在该文件中出现的次数。IDF反文档频率(Inverse Document Frequency)的主要思想是:如果包含词条的文档越少,IDF越大,则说明词条具有很好的类别区分能力。

      使用TF*IDF可以计算某个关键字在某篇文章里面的重要性,因而识别这篇文章的主要含义,实现计算机读懂文章的功能。

    2、Lucene评分

    System.out.println(searcher.explain(q, hits.id(i))); //打印评分细节

    3.Solr字段配置

    fields节点内定义具体的字段(类似数据库的字段),含有以下属性:

    • name:字段名
    • type:之前定义过的各种FieldType
    • indexed:是否被索引
    • stored:是否被存储(如果不需要存储相应字段值,尽量设为false)
    • multiValued:是否有多个值(对可能存在多值的字段尽量设置为true,避免建索引时抛出错误)

    4.Solr设置优化中文分词器

  • 相关阅读:
    两种接口传送数据协议(xml和json)
    两种访问接口的方式(get和post)
    myeclipse 编写java代码提示 dead code 原因
    svn文件冲突,树冲突详解
    linux操作提示:“Can't open file for writing”或“operation not permitted”的解决办法
    embed标签属性
    程序员必读的书刊收藏
    python实现冒泡排序和快速排序
    python简单词频统计
    Qt出现堆溢出(Error Code -1073741823)
  • 原文地址:https://www.cnblogs.com/jintianfan/p/3509438.html
Copyright © 2020-2023  润新知