• 搜索引擎基础---分词和倒排索引简述


    搜索引擎是什么?

    所谓搜索引擎,就是根据用户需求与一定算法,运用特定策略从互联网检索出制定信息反馈给用户的一门检索技术。搜索引擎依托于多种技术,如网络爬虫技术、检索排序技术、网页处理技术、大数据处理技术、自然语言处理技术等,为信息检索用户提供快速、高相关性的信息服务。搜索引擎技术的核心模块一般包括爬虫、索引、检索和排序等,同时可添加其他一系列辅助模块,以为用户创造更好的网络使用环境--百度百科。

    分词和倒排索引

    分词可以说是搜索引起的基石,如果一个搜索引擎没有好的分词器那么这个搜索引擎必然是失败的。

    搜索是以词作为最小单元,依靠分词器进行构建,最后会生成一个倒排索引。

    分词器就负责拆分我们的语句。比如“my name is nijunyang”。分词的时候会处理掉一些区分度不高的词,英文中“is,are”,中文“的,是”这些之类。

    通过分词之后结果再次指向原来的文档,通过value反向生成key(多个),这就是倒排索引。而我们以前的那些正向索引是先key-value,一般来说是一一对应,而且key也不是通过value去生成。

    为什么百度搜索很多时候搜出来的东西不如意,这应该就和分词器有关系,因为中文分词和英文分词是有很大区别的,中文断句不同,分出来的key就不一样。

    而且很多语句断句不同是有歧义的,比如“武汉市长江大桥”——>“武汉市/长江大桥”,“武汉/市长/江大桥”,如果本意是第二种,但是分词按照第一种,那么搜索“江大桥”,就搜不到这一条数据。

    TF-IDF(term frequency–inverse document frequency): 决定搜索结果的匹配度,当前也可以花钱--比如“莆田系”医院。

    TF: 词频,一篇文档中出现了多少次,这个词,出现越多说明关联度越高。

    DF:文档频率,包含这个词的文档总数。如果大家都有这个词,说明这个词的区分度并不高,比如:是,的

    IDF:逆文档。1/DF,包含该词的文档越少,也就是DF越小,IDF越大,则说明该词对这篇文档重要性就越大。

    TFIDF: TF*IDF,如果某个词在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为该词具有很好的类别区分能力

  • 相关阅读:
    IIS日志字段详解
    Linux CPU监控指标
    PMP 质量管理新7张图
    PMP 质量管理7张图 很形象
    【MVC model 验证失效 】【Unexpected token u in JSON at position 0】【jquery-plugin-validation】
    VS 忽略文件 Git 向远程添加问题
    .Net Core 知识了解:一跨平台的奥秘
    ios 时间解析 差8个小时
    百度定位转腾讯定位
    需求评审会议分析
  • 原文地址:https://www.cnblogs.com/nijunyang/p/12544481.html
Copyright © 2020-2023  润新知