SEO搜索引擎

SEO搜索引擎

搜索引擎

　　搜索引擎（Search Engine）是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息，在对信息进行组织和处理后，为用户提供检索服务，将用户检索相关的信息展示给用户的系统。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。

　　一个搜索引擎由搜索器、索引器、检索器和用户接口四个部分组成。搜索器的功能是在互联网中漫游，发现和搜集信息。索引器的功能是理解搜索器所搜索的信息，从中抽取出索引项，用于表示文档以及生成文档库的索引表。检索器的功能是根据用户的查询在索引库中快速检出文档，进行文档与查询的相关度评价，对将要输出的结果进行排序，并实现某种用户相关性反馈机制。用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。

目录索引

　　目录索引也称为：分类检索，是因特网上最早提供WWW资源查询的服务，主要通过搜集和整理因特网的资源，根据搜索到网页的内容，将其网址分配到相关分类主题目录的不同层次的类目之下，形成像图书馆目录一样的分类树形结构索引。目录索引无需输入任何文字，只要根据网站提供的主题分类目录，层层点击进入，便可查到所需的网络信息资源。

　　虽然有搜索功能，但严格意义上不能称为真正的搜索引擎，只是按目录分类的网站链接列表而已。用户完全可以按照分类目录找到所需要的信息，不依靠关键词（Keywords）进行查询。

元搜索

　　元搜索引擎（METASearch Engine）接受用户查询请求后，同时在多个搜索引擎上搜索，并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等，中文元搜索引擎中具代表性的是搜星搜索引擎。在搜索结果排列方面，有的直接按来源排列搜索结果，如Dogpile；有的则按自定的规则将结果重新排列组合，如Vivisimo。

垂直搜索

　　垂直搜索引擎为2006年后逐步兴起的一类搜索引擎。不同于通用的网页搜索引擎，垂直搜索专注于特定的搜索领域和搜索需求（例如：机票搜索、旅游搜索、生活搜索、小说搜索、视频搜索、购物搜索等等），在其特定的搜索领域有更好的用户体验。相比通用搜索动辄数千台检索服务器，垂直搜索需要的硬件成本低、用户需求特定、查询的方式多样。

集合式搜索

　　集合式搜索引擎：该搜索引擎类似元搜索引擎，区别在于它并非同时调用多个搜索引擎进行搜索，而是由用户从提供的若干搜索引擎中选择，如HotBot在2002年底推出的搜索引擎。

门户搜索

　　门户搜索引擎：AOLSearch、MSNSearch等虽然提供搜索服务，但自身既没有分类目录也没有网页数据库，其搜索结果完全来自其他搜索引擎。

工作原理

　　第一步：爬行

　　搜索引擎是通过一种特定规律的软件跟踪网页的链接，从一个链接爬到另外一个链接，像蜘蛛在蜘蛛网上爬行一样，所以被称为“蜘蛛”也被称为“机器人”。搜索引擎蜘蛛的爬行是被输入了一定的规则的，它需要遵从一些命令或文件的内容。

　　第二步：抓取存储

　　搜索引擎是通过蜘蛛跟踪链接爬行到网页，并将爬行的数据存入原始页面数据库。其中的页面数据与用户浏览器得到的HTML是完全一样的。搜索引擎蜘蛛在抓取页面时，也做一定的重复内容检测，一旦遇到权重很低的网站上有大量抄袭、采集或者复制的内容，很可能就不再爬行。

　　第三步：预处理　

　　搜索引擎将蜘蛛抓取回来的页面，进行各种步骤的预处理。

　　⒈提取文字

　　⒉中文分词

　　⒊去停止词

　　⒋消除噪音（搜索引擎需要识别并消除这些噪声，比如版权声明文字、导航条、广告等……）

　　5.正向索引

　　6.倒排索引

　　7.链接关系计算

　　8.特殊文件处理

　　除了HTML 文件外，搜索引擎通常还能抓取和索引以文字为基础的多种文件类型，如 PDF、Word、WPS、XLS、PPT、TXT 文件等。我们在搜索结果中也经常会看到这些文件类型。但搜索引擎还不能处理图片、视频、Flash 这类非文字内容，也不能执行脚本和程序。

　　第四步：排名

　　用户在搜索框输入关键词后，排名程序调用索引库数据，计算排名显示给用户，排名过程与用户直接互动的。但是，由于搜索引擎的数据量庞大，虽然能达到每日都有小的更新，但是一般情况搜索引擎的排名规则都是根据日、周、月阶段性不同幅度的更新。

　　选择

　　与网站内容相关

　　搜索次数多，竞争小

　　主关键词，不可太宽泛

　　主关键词，不太特殊

　　商业价值

　　提取文字

　　中文分词

　　去停止词

　　消除噪声

　　去重

　　正向索引

　　倒排索引

　　链接关系计算

　　特殊文件处理

组成

　　搜索引擎一般由搜索器、索引器、检索器和用户接口四个部分组成；

搜索器

　　其功能是在互联网中漫游，发现和搜集信息；

索引器

　　其功能是理解搜索器所搜索到的信息，从中抽取出索引项，用于表示文档以及生成文档库的索引表；

检索器

　　其功能是根据用户的查询在索引库中快速检索文档，进行相关度评价，对将要输出的结果排序，并能按用户的查询需求合理反馈信息；

用户接口

　　其作用是接纳用户查询、显示查询结果、提供个性化查询项。

语言判断

　　语言meta标签

　　很多网页通过一个HTML标签来表明网页使用的语言，例如<META http-equiv=”content-language” content="ja"> ；表示使用的是日语，看起来简单，搜索蜘蛛程序读取标签，于是搜索引擎知道是什么语言了。但是相对多的语言meta标签是完全错误的，没有标签，句法错误，以及语言编码错误等等。搜索引擎确实查看这些标签，但是它们很少只从这些标签来判定网页的语言。

　　字符编码

　　计算机文件（包括HTML网页）需要“对译本（Key）”正确翻译文件中的字符（字母，数字等等）。这种对译本被称为字符编码。由网页中meta标签里声明，例如<META http-equiv=content-type content="text/html；charset=GBK">。　　

　　网站浏览器和搜索蜘蛛程序假定网页按照西方语言编码，因此使用这些语言写的网页不需要这个标签。为了浏览器显示正确，亚洲、阿拉伯和古代斯拉夫语的文本确实需要这个标签。因此，当搜索引擎看到针对这些语言的标签，它对正确显示网页的语言有了很高的保证。

　　内容分析

　　搜索引擎通过研究内容中的字符模式来最终判定网页的语言，哪怕是短到只有两句话的网页，内容分析的精确度也非常高。Meta标签只有在内容分析后还不确定的情况下才被使用。

　　多数情况下，搜索引擎会自行正确地判断网页的内容，对于只有很少几个词的网页，要保证网页被正确识别，正确的编码语言和meta语言标签很重要。

搜索建议

　　细化搜索条件

　　搜索逻辑命令

　　精确匹配搜索

　　特殊搜索命令

　　　　●标题搜索

　　　　●网站搜索

　　　　●链接搜索

　　
相关阅读:
计算机方向的一些顶级会议和期刊—Top Conferences and Journals in Computer Science
jvm dns缓存问题解决方式
 eclipse调试过程中插入代码执行
 Spring Atomikos分布式事务
 spring quartz 注解配置定时任务
 web系统性能分析JavaMelody
收集到几种开源NLP工具
 记录些实用的linux指令串
 javamelody对Java Application进行监控
 解决ssh连接问题1
原文地址：https://www.cnblogs.com/dreamMargin/p/9764693.html

搜索引擎

目录索引

元搜索

垂直搜索

集合式搜索

门户搜索

工作原理

组成

语言判断

搜索建议