• 搜索引擎学习


    发展的里程碑:

    •   第一阶段:该搜索引擎以“雅虎”为代表,主要依靠于人工分拣的分类目录进行搜索
    •   第二阶段:该搜索引擎以Google为代表,主要依靠于机器抓取和采用链接分析技术进行搜索。与第一阶段的搜索引擎相比,其信息量大、更新及时,返回信息丰富。
    •   第三阶段:该搜索引擎以“综合信息搜索服务”为代表,主要在第二阶段的基础上加入了智能化、人机交互、自动分类技术、中文内容分析等技术,不仅提高了信息检索速度和更新频率,而且还实现了拼音纠错、模糊查询、语音查询等功能

    搜索引擎按照实现的方式分类:

    1. 全文搜索引擎:一般通过网络机器人或网络蜘蛛工具,自动分析网络上的各种连链接并将分析结果按规则整理,并同时存入数据库供显示使用
    2. 分类目录搜索引擎:通过人工的方式收集整理网站资料形成数据库

    在计算机上表示信息获取流程,具体包括:信息的表示、信息存储、信息组织和信息访问

    1. 首先需要创建进行检索的数据,用其构建文本数据库
    2. 创建好文本数据库后,就需要建立文档的索引。Lucene全文搜索组件中是通过倒排索引的方法创建索引
    3. 创建好索引后,就可以进行检索。用户首先需要给出一个查询,该查询将被分析、然后利用文本处理技术进行处理
    4. 最后根据用户的查询将会获取一些文档,即检索结果。在把检索结果反馈给用户之前,还可以对检索结果按照一定的次序排序,以符合用户需要的文档能够排在更前面

    查询方法

    • 顺序查询法:当用户进行查询时,对文档集合不做任何形式的预处理,而且接在文档中进行字符串的简单匹配。虽然该方式简单、容易实现,但是当文本大小超过一定数量级别时,该方式的效率就不能满足实际需求
    • 索引查询法:当用户进行查询时,查询的对象会对文档集合创建的特殊数据结构,该数据结构就是索引。该方式只针对文档的信息相对稳定的情况,因为当文档中的信息发生变化时,还必须对索引进行更新
  • 相关阅读:
    Java 泛型约束
    Java 单例模式
    Java中的Atomic包使用指南
    基数排序
    归并排序
    插入排序
    选择排序
    交换排序
    Java多线程 LockSupport
    Java并发控制:ReentrantLock Condition使用详解
  • 原文地址:https://www.cnblogs.com/GenghisKhan/p/2648090.html
Copyright © 2020-2023  润新知