找到最重要的知识 | |||
提起google,不仅会想起快速准确的检索,也会提到其中最重要的pagerank技术,作为google的核心 技术他是其创始人在斯坦福大学开发的一套网页评价技术。简单的解说,就是“从许多优质的网页链接过来的网页,必定还是优质网页”,pagerank利用互 联网独特的民主特性及其巨大的链接结构,在浩如烟海链接资源中提取上亿个超级k链接进行分析,制作出巨大的网络地图。依据这些信息计算出网页的级别。这个 级别依旧是:当网页a链接到网页b时,就认为网页a投了网页一票,google以其复杂自动的搜素方法排除人为因素对搜索结果的影响。 但是作为知识检索工具我们要找到适合自己有用的知识依然是一件困难的事情。
我们试图构建更好的能够在使用中简单学习的搜索引擎。
我们抓取博客园25万资料进行采样分析,通过Lucene.Net构建搜索引擎进行分析论证。和博客园在搜索信息进行比较。 活性评级公式:(0.5+0.1/s)+ ∑ (1/n*h) 其中那表示关联信息个数,h表示每个关联信息的活性 衰减曲线:F(x)=Exp(s)*10/(x-2) 其中x是时间增量 s是重复次数 |