搜索引擎其实和我们书本上的目录原理是一样的,书本上我们是可以通过目录找到我们相应的内容, 比如导航站其实也就是一个索引的结构:
正排索引:
网站001 = 关键词A + 关键词B 如此类推。。。。。。
网站002 = 关键词A + 关键词B 如此类推。。。。。。
像这种页面被分成一个个的关键词就是正排索引
倒排索引:
1、文档
就像一个网站,里面分成一个个文件(如 TXT、RAR、JS、CSS、EXE、JPG),这就称呼为文档
2、文档集合
有很多的文档组成的一个集合,这样他就称呼为文档集合。
3、文档编号
互联网中每个文件都有各自的一个编号(可以理解为文档各自的md5值,唯一的)
4、单词编号
每个单词都有各自的唯一编号,具有唯一性,用编号来代表单词或者短语再或者句子
5、倒排索引
倒排索引是在搜索引擎当中的搜索引擎库中,以单词对应网页的存储形式,也就是说根据单词可以快速的获取到相关的文档。
更加直观一点的可以参考下图:
了解到倒排索引后,我们就需要了解 关键词密度 简称 TF,比如我们刚才的单词ID1,单词是:我,可以在多个文档中出现,说明出现频率挺高的,这样我们页面中需要遵寻TF,也就是关键词密度,市面上有3中计算关键词密度的方法。
方法1:关键词次数 ÷ 页面总字数 X 100%
方法2:关键词次数 ÷ 页面总字数 ÷ 关键词字数 X 100%
方法3:关键词次数 ÷ 页面分词数量(可以理解为上图右方的单词数量) X 100%
TF在搜索引擎计算结果排序时,分析查询词和文档库中那个文档更为相关的参考因素
频率计算方法其实就类似上图这样进行计算即可,当然倒排列表中如果蓝色字体多出现一次,那么频率将会 + 1,如此类推,这就是传说中的关键词密度玩法咯~~!
工作了一整天,到USB电影网:http://www.usbdy.com/ 看看电影还是挺不错的,突然发现今天又更新了不少新电影~~!
无主之城:http://www.usbdy.com/tv/dalu/72758/
全职高手 电视剧版 : http://www.usbdy.com/tv/dalu/72757/
隐私大盗 : http://www.usbdy.com/dy/jilu/72756/
豪侠 : http://www.usbdy.com/dy/dongzuo/72755/
同梦失魂夜 : http://www.usbdy.com/dy/kehuan/72754/
雪豹行动 : http://www.usbdy.com/tv/dalu/72753/
有女朋友的老铁们可以去陪陪女朋友,木有女朋友的可以过来看看电影,放松一下,其实是挺不错的选择哟~~!