• Lucene简介


    Lucene简介


    首先说明的是--Lucene.Net只是一个全文检索开发包,不是一个成型的搜索引擎,

    它的功能就是负责将文本数据按照某种分词算法进行切词,分词后的结果存储在索引库中,从索引库检索数据的速度灰常快.

    对以上加粗的词汇稍作下阐述:

    文本数据:Lucene.Net只能对文本信息进行检索,所以非文本信息要么转换成为文本信息,要么你就死了这条心吧!

    分词算法:将一句完整的话分解成若干词汇的算法  常见的一元分词(Lucene.Net内置就是一元分词,效率高,契合度低),二元分词,基于词库的分词算法(契合度高,效率低)...

    切词:将一句完整的话,按分词算法切成若干词语

         比如:"不是所有痞子都叫一毛" 这句话,如果根据一元分词算法则被切成: 不 是 所 有 痞 子 都 叫 一 毛 

         如果二元分词算法则切成: 不是 是所 所有 有痞 痞子 子都 都叫 叫一  一毛

         如果基于词库的算法有可能:不是 所有 痞子 都叫 一毛 具体看词库

    索引库:简单的理解成一个提供了全文检索功能的数据库

    如果文字难以理解 见Demo文件说明中的右侧图吧

    http://www.cnblogs.com/piziyimao/archive/2013/01/31/2887072.html

  • 相关阅读:
    友元类和友元函数
    C++中构造函数和析构函数调用的时机
    Linux 下svn恢复到某一版本
    lua 中pairs 和 ipairs区别
    孤儿进程与僵尸进程
    union
    关于C++ const 的全面总结
    后台管理左侧菜单
    全选-反选-取消
    Dom-直接 /间接选择器
  • 原文地址:https://www.cnblogs.com/tianciliangen/p/7650352.html
Copyright © 2020-2023  润新知