找到最重要的知识

找到最重要的知识
提起google，不仅会想起快速准确的检索，也会提到其中最重要的pagerank技术，作为google的核心技术他是其创始人在斯坦福大学开发的一套网页评价技术。简单的解说,就是“从许多优质的网页链接过来的网页，必定还是优质网页”，pagerank利用互联网独特的民主特性及其巨大的链接结构，在浩如烟海链接资源中提取上亿个超级k链接进行分析，制作出巨大的网络地图。依据这些信息计算出网页的级别。这个级别依旧是：当网页a链接到网页b时，就认为网页a投了网页一票，google以其复杂自动的搜素方法排除人为因素对搜索结果的影响。但是作为知识检索工具我们要找到适合自己有用的知识依然是一件困难的事情。 a. pagerank算法使得pagerank最多的网页往往是新浪那样的大型门户网站，用户需要点击进去的不是超链的列表而是具体的知识。 b. Pagerank按照建立在超链的分析模型之上，统计出每一个超链的阻尼给与评价，但是现在用户目前更喜欢通过搜索引擎去获取知识，而不是超链路由。 c. 许多重要的知识和文献并不比娱乐新闻被转载。我们试图构建更好的能够在使用中简单学习的搜索引擎。 1. 信息活性和查看或者创建的时间相关，被用户搜索后点击浏览或者第一次被抓取的时间越近活性越大。 2. 用户通过搜索引擎搜索信息，查看摘要，信息被查看的次数越多，记忆被加强，活性越大。 3. 随着时间推移，信息的活性逐渐衰减，多次被搜索查看的信息衰减速度缓慢 4. 相关信息会被联想，活性互相加强。 5. 通俗的讲，就是借助用户在搜索过程中的点击，将单此搜索过程中的点击信息关联起来，他们的活性互相得到加强。 6. 按照信息的活性对信息排序我们抓取博客园25万资料进行采样分析，通过Lucene.Net构建搜索引擎进行分析论证。和博客园在搜索信息进行比较。活性评级公式：（0.5+0.1/s）+ ∑ (1/nh) 其中那表示关联信息个数，h表示每个关联信息的活性衰减曲线：F（x)=Exp(s)10/(x-2) 其中x是时间增量 s是重复次数

相关阅读:
Linux基础_linux发展历史
 Python基础_迭代器、生成器、模块与包
 Python基础_如何用pip安装文件
 Selenium 实现多机器部署分布式执行
 Selenium 日期控件处理和JS定位
 Selenium 无头浏览器
 Selenium 窗口和frame定位
 Selenium 自动化测试模型
 Selenium 验证码处理
 Selenium PageObject设计模式
原文地址：https://www.cnblogs.com/zhouyongguo/p/2314090.html

最新文章
Brat 部署一 ------ 安装与镜像生成
 Docker 入门02------容器数据卷
 WPS word、Excel等控件不能使用
 在windows下安装Git并用GitHub同步
 DJango 基础（7）
Mysql 单表查询子查询关联查询
 DJango 基础(6)
DJango 基础 (5)
DJango 基础 (4)
DJango 基础 (3)