• 索引


    《深入搜索引擎》
    在索引创建前通常都需要进行适当的转换,在这本书中提到三种转换方式:
    1、大小写折叠,这种转换将所有大写字母转化成小写(反之亦然),采用这种转换是为了在数据库查询时不被大小写问题干扰,但是也会有一些弊端。如:ACT,在澳大利亚代表了澳大利亚首都领地(Australian Capital Territory)。ACT和动词act可以说是大相径庭


    2、将单词规约到词根,也就是说,去掉单词所有的后缀和其它变体。例如:compression、compressed、compressor都有共同的词根compress。它能够保证即便文档中的词汇形式有所差异,但依然能被检索出来。如果典型术语的创建过程同时使用了词根化操作,而且查询词也做了词根化操作,那么在用“data And compression” 这样的查询检索出的文档中可能包含这样的短语如“compressed data is” 和 “to compress the data”。虽然很难否认这类转化的有用性,但是这种转换事实上已经被广泛采用了


    3、停用词转换。停用词被注定为非常普遍的词,如the、a、it。在不同的行业中停用词也有所不同,如:在线计算机手册中option和usage不应该被索引,在金融档案中dollar和stock甚至Dow和Johns都应作为停用词,有时会应用一个自动推到停用词的方法


    4、进一步的转换还有同义词转换。例如:fast和rapid能够被准确的识别出来,并且继而把他们都用同一个典型术语来索引

  • 相关阅读:
    Vuejs
    Vuejs
    Vuejs
    Vuejs
    JS高级之面试必须知道的几个点
    用vue快速开发app的脚手架工具
    作为一名前端开发工程师,你必须掌握的WEB模板引擎:Handlebars
    REST接口设计规范总结
    eclipse实现JavaWeb应用增量打包
    转载:作为面试官,我是怎么快速判断程序员能力的?
  • 原文地址:https://www.cnblogs.com/zhangjianzhi/p/3820866.html
Copyright © 2020-2023  润新知