• 搜索引擎中用到的一些拆词方式解析


    •   单词多形态(Word Stemming)

      单词多态,主要是关系到单词的词根( stem of a word )和通过这个词根变化出来的多个词的过程(Word Stemming),比如,works, 词根是work,可以变成Worker,Workers,Working,Worked等。搜索引擎可以利用这个特点进行词根匹配搜索。但它不是指“近义词”。

    •  断词(Word Truncation)

      断词是取单词的一部分加上通配符进行搜索。比如:Wor* 可以搜索出Work,Worker,Working等等的单词。

    •  近义词(Synonyms)
      近义词非常容易理解,就是意义相近,或者意义相同但叫法不同。比如“知了”和“蝉”等。
      据了解,Google不支持Word Stemming和Word Truncation。百度也有不少新的语法,可能大家都不知道,可以多去了解一下,比如用“-”号表示排除等。

    (博客中都为原创,引用请注明出处,风焰庄主)
  • 相关阅读:
    安装jdk
    chrome
    Jenkins启动
    Red Hat Linux分辨率调整
    Jemeter第一个实例
    grep与正则表达式
    使用ngx_lua构建高并发应用
    UML建模之时序图(Sequence Diagram)
    secureCRT mac 下破解
    跨域通信的解决方案JSONP
  • 原文地址:https://www.cnblogs.com/fyan888/p/SearchEngineer.html
Copyright © 2020-2023  润新知