• 倒排索引


    1、倒排索引相关概念:

    文档、文档集合、文档编号(DocId)、单词编号

    倒排索引、单词词典、倒排列表、倒排文件

    2、带有单词频率、文档频率和出现位置信息的倒排索引实例(实现term->DocID的映射关系,并附加主要的结果排序特征)

    3、单词词表存储形式:哈希加链表、B树或B+树

    4、倒排列表

    在实际的搜索引擎中,并不保存倒排索引项中的实际文档编号,而是代之以文档编号差值(D-Gap),目的是为了增加数据压缩率。

    5、建立索引的方式

    两遍文档遍历法(2-pass in-memory inversion)  内存容量要求高、速度慢

    排序法(Sort-based Inversion)   词典永不写磁盘;三元组形式;局部排序,中间结果文件合并(分配固定大小内存,内存-磁盘模型)

    归并法(Merge-based Inversion)    词典随中间结果文件写磁盘;完整内存索引结构;对局部倒排索引结果合并(分配固定大小内存,内存-磁盘模型)

    6、动态索引

    倒排索引、临时索引、已删除文档列表

    7、索引更新策略

    完全重建策略、再合并策略、原地更新策略、混合策略

    8、查询处理

    一次一文档(doc at a time)、一次一单词(term at a time)、跳跃指针(skip pointers)

    9、多字段索引

    多索引方式、倒排列表方式、扩展列表方式(Extent List)

    10、短语查询

    位置信息索引(position index)、双词索引(nextwork index)、短语索引(phrase index)、混合方式

    11、分布式索引

  • 相关阅读:
    Java Evaluate Reverse Polish Notation(逆波兰式)
    UVA 11427
    iOS8互动的新通知
    Codeforces 32E Hide-and-Seek 乞讨2关于镜面反射点 计算几何
    error: png.h not found.
    JAVA反射机制
    java24 手写服务器最终版本
    java23 XML
    java22
    java21 封装Response:
  • 原文地址:https://www.cnblogs.com/snailrun/p/5578139.html
Copyright © 2020-2023  润新知