发展的里程碑:
- 第一阶段:该搜索引擎以“雅虎”为代表,主要依靠于人工分拣的分类目录进行搜索
- 第二阶段:该搜索引擎以Google为代表,主要依靠于机器抓取和采用链接分析技术进行搜索。与第一阶段的搜索引擎相比,其信息量大、更新及时,返回信息丰富。
- 第三阶段:该搜索引擎以“综合信息搜索服务”为代表,主要在第二阶段的基础上加入了智能化、人机交互、自动分类技术、中文内容分析等技术,不仅提高了信息检索速度和更新频率,而且还实现了拼音纠错、模糊查询、语音查询等功能
搜索引擎按照实现的方式分类:
- 全文搜索引擎:一般通过网络机器人或网络蜘蛛工具,自动分析网络上的各种连链接并将分析结果按规则整理,并同时存入数据库供显示使用
- 分类目录搜索引擎:通过人工的方式收集整理网站资料形成数据库
在计算机上表示信息获取流程,具体包括:信息的表示、信息存储、信息组织和信息访问
- 首先需要创建进行检索的数据,用其构建文本数据库
- 创建好文本数据库后,就需要建立文档的索引。Lucene全文搜索组件中是通过倒排索引的方法创建索引
- 创建好索引后,就可以进行检索。用户首先需要给出一个查询,该查询将被分析、然后利用文本处理技术进行处理
- 最后根据用户的查询将会获取一些文档,即检索结果。在把检索结果反馈给用户之前,还可以对检索结果按照一定的次序排序,以符合用户需要的文档能够排在更前面
查询方法
- 顺序查询法:当用户进行查询时,对文档集合不做任何形式的预处理,而且接在文档中进行字符串的简单匹配。虽然该方式简单、容易实现,但是当文本大小超过一定数量级别时,该方式的效率就不能满足实际需求
- 索引查询法:当用户进行查询时,查询的对象会对文档集合创建的特殊数据结构,该数据结构就是索引。该方式只针对文档的信息相对稳定的情况,因为当文档中的信息发生变化时,还必须对索引进行更新