• 现代信息检索 小笔


    信息检索:ARSOA,从文档集合中返回满足用户需求的相关信息的过程。研究信息的获取(acquisition)、表示(representation)、存储(stotage)、组织(organization)和访问(access)。

     
    信息检索的两种研究方式:
    以计算机为中心: IR的工作主要是建立索引、对用户查询进行处理、排序算法等等
    以用户为中心: IR的主要工作是考察用户的行为、理解用户的需求、这些行为和需求如何影响检索系统的组织
     
    IR系统的组成部分

    1、用户接口(user interface)
         输入查询(query)
         返回排序后的排序文档并对其可视化
         Feedback
    用户的两种任务:retrieval和browsing
    IR两种模式:pull or push
    2、文本处理(text operations)
         中文分词(chinese word segmentation)
         词干还原(stemming)
         停用词消除(stopword removal)
    3、查询处理(query operations) 对经过文本处理后的查询进行进一步处理,得到查询的内部表示(Query Representation)
              查询扩展(query expansion) 利用同义词或近义词
              查询重构(query reconstruction)利用feedback
    4、文本标引(indexing)  对经过文本处理后的文本进行进一步处理,得到文本的内部表示(Text Representation),通常基于标引项(Term)来表示
         向量化、概率计算
         组成成倒排表进行存储
    5、搜索(searching)
    6、排序(ranking)
    7、Logical view 指的是查询或者文本的表示,通常采用一些关键词或者标引项(index term)来表示一段查询或者文本。
  • 相关阅读:
    委托事件学习笔记
    开发小技巧:C#逐个输出字符
    存储过程实例总结(开发中的错误与总结,调试,数据库函数DATEDIFF计算当前日期是否在本周内)
    一个简单的通用面板和菜单类
    PHP配置图文教程
    LaTeX——代码框风格设置
    layui获取弹出层内容
    argis android sdk配置备忘一下
    记录下-两点角度计算
    注册dll命令
  • 原文地址:https://www.cnblogs.com/lake19901126/p/2592263.html
Copyright © 2020-2023  润新知