• 倒排索引


    1、倒排索引相关概念:

    文档、文档集合、文档编号(DocId)、单词编号

    倒排索引、单词词典、倒排列表、倒排文件

    2、带有单词频率、文档频率和出现位置信息的倒排索引实例(实现term->DocID的映射关系,并附加主要的结果排序特征)

    3、单词词表存储形式:哈希加链表、B树或B+树

    4、倒排列表

    在实际的搜索引擎中,并不保存倒排索引项中的实际文档编号,而是代之以文档编号差值(D-Gap),目的是为了增加数据压缩率。

    5、建立索引的方式

    两遍文档遍历法(2-pass in-memory inversion)  内存容量要求高、速度慢

    排序法(Sort-based Inversion)   词典永不写磁盘;三元组形式;局部排序,中间结果文件合并(分配固定大小内存,内存-磁盘模型)

    归并法(Merge-based Inversion)    词典随中间结果文件写磁盘;完整内存索引结构;对局部倒排索引结果合并(分配固定大小内存,内存-磁盘模型)

    6、动态索引

    倒排索引、临时索引、已删除文档列表

    7、索引更新策略

    完全重建策略、再合并策略、原地更新策略、混合策略

    8、查询处理

    一次一文档(doc at a time)、一次一单词(term at a time)、跳跃指针(skip pointers)

    9、多字段索引

    多索引方式、倒排列表方式、扩展列表方式(Extent List)

    10、短语查询

    位置信息索引(position index)、双词索引(nextwork index)、短语索引(phrase index)、混合方式

    11、分布式索引

  • 相关阅读:
    内向者生存手册
    不良言论屏蔽方案探讨——附加一点思考
    提高复用性的编码习惯
    如何管好.net的内存
    谨防信息超载
    .net的反对派们,精神比表面的东西更重要
    为什么我老是半途而废?
    对不起,我也是来给.Net泼冷水的(山寨版)
    把重要的事情先做好
    学英语(外语)的一个误区
  • 原文地址:https://www.cnblogs.com/snailrun/p/5578139.html
Copyright © 2020-2023  润新知