• 找到最重要的知识


    找到最重要的知识  

         提起google,不仅会想起快速准确的检索,也会提到其中最重要的pagerank技术,作为google的核心 技术他是其创始人在斯坦福大学开发的一套网页评价技术。简单的解说,就是“从许多优质的网页链接过来的网页,必定还是优质网页”,pagerank利用互 联网独特的民主特性及其巨大的链接结构,在浩如烟海链接资源中提取上亿个超级k链接进行分析,制作出巨大的网络地图。依据这些信息计算出网页的级别。这个 级别依旧是:当网页a链接到网页b时,就认为网页a投了网页一票,google以其复杂自动的搜素方法排除人为因素对搜索结果的影响。

        但是作为知识检索工具我们要找到适合自己有用的知识依然是一件困难的事情。

    a. pagerank算法使得pagerank最多的网页往往是新浪那样的大型门户网站,用户需要点击进去的不是超链的列表而是具体的知识。

    b. Pagerank按照建立在超链的分析模型之上,统计出每一个超链的阻尼给与评价,但是现在用户目前更喜欢通过搜索引擎去获取知识,而不是超链路由。

    c. 许多重要的知识和文献并不比娱乐新闻被转载。

     

    我们试图构建更好的能够在使用中简单学习的搜索引擎。

    1. 信息活性和查看或者创建的时间相关,被用户搜索后点击浏览或者第一次被抓取的时间越近活性越大。

    2. 用户通过搜索引擎搜索信息,查看摘要,信息被查看的次数越多,记忆被加强,活性越大。

    3. 随着时间推移,信息的活性逐渐衰减,多次被搜索查看的信息衰减速度缓慢

    4. 相关信息会被联想,活性互相加强。

    5. 通俗的讲,就是借助用户在搜索过程中的点击,将单此搜索过程中的点击信息关联起来,他们的活性互相得到加强。

    6. 按照信息的活性对信息排序

     

    我们抓取博客园25万资料进行采样分析,通过Lucene.Net构建搜索引擎进行分析论证。和博客园在搜索信息进行比较。

    活性评级公式:(0.5+0.1/s+ ∑ (1/n*h) 其中那表示关联信息个数,h表示每个关联信息的活性

    衰减曲线:Fx)=Exp(s)*10/(x-2) 其中x是时间增量 s是重复次数

  • 相关阅读:
    Linux基础_linux发展历史
    Python基础_迭代器、生成器、模块与包
    Python基础_如何用pip安装文件
    Selenium 实现多机器部署分布式执行
    Selenium 日期控件处理和JS定位
    Selenium 无头浏览器
    Selenium 窗口和frame定位
    Selenium 自动化测试模型
    Selenium 验证码处理
    Selenium PageObject设计模式
  • 原文地址:https://www.cnblogs.com/zhouyongguo/p/2314090.html
Copyright © 2020-2023  润新知