什么是sitemap?
sitemap是google创造出来的东西,也就是网站地图,但是这个地图和我们所说的网站的地图不一样,这个网站地图是用xml写的,并且严格按google的标准来写。
提交sitemap的好处?
提交sitemap有利于搜索引擎的收录,比如动态网页。google登陆一个网站,首先看是否有sitemap这个东西,如果有就先读,没有的话就逐个按站点页面抓取。sitemap就是你网站上页面的信息列表,googlebot就按照这个去一个个的抓取页面。
XML Sitemaps 格式
Sitemaps 协议格式由 XML 标记组成。Sitemaps 的所有数据数值应为实体转义过的。文件本身应为 UTF-8 编码的。
以下是只包含一个网址并使用所有可选标记的 Sitemaps 示例。可选标记为斜体。
<?xml version=”1.0″ encoding=”UTF-8″?>
< urlset xmlns=http://www.google.com/schemas/sitemap/0.9>
<url>
<loc>http://www.neesoo.cn/archives/71.html</loc>
<lastmod>2009-03-07</lastmod>
<changefreq>yearly</changefreq>
<priority>0.2</priority>
</url>
<url>
<loc>http://www.neesoo.cn/archives/71.html</loc>
<lastmod>2009-03-06</lastmod>
<changefreq>yearly</changefreq>
<priority>0.2</priority>
</url>
</urlset>
注意:兰色部分为通用格式 是不变的. 中间的黑色部分为一个模块,就是说每一条要提交给搜索引擎
收录的网址就是一个独立的模块。然后有多少条网址就有多少个这样的模块。
Sitemaps 应:以 <urlset> 开始标记开始,以 </urlset> 结束标记结束。
每个网址包含一个作为父标记的 <url> 条目。
每一个 <url> 父标记包括一个 <loc> 子标记条目。
下面我分开解释一下里面的标签的意思
<loc></loc>
这两个标签中间的地址必填。格式为:http://www.neesoo.cn/archives/71.html,此网址应以协议开始(例如:http)并以斜线结尾。此值应少于 2048 个字符。
<lastmod>
可选标签 标签含义:该文件上次修改的日期。此日期应采用 W3C Datetime 格式。如果需要的话,此格式允许省略时间部分,而仅使用 YYYY-MM-DD。 列子:2009-03-06。
<changefreq>
可选标签 标签含义:页面可能发生更改的频率。此值为搜索引擎提供一般性信息,可能与搜索引擎抓取页面的频率不完全相关。有效值为:
always
hourly
daily
weekly
monthly
yearly
never
值“always”应当用于描述每次访问时都会改变的文档。而值“never”应当用于描述已存档网址。
<priority>
可选标签 此网址的优先级与您网站上其他网址的优先级相关。有效值范围从 0.0 到 1.0。此值不会影响您的网页与其他网站上网页的比较结果,只是告诉搜索引擎您认为您的那个网页最重要,从而它们对您页面的抓取可以按照您最喜欢的方式进行排序。
一个网页的默认优先级为 0.5。
了解这些标签的作用我们就可以根据自己网站的情况做出适合自己站点sitemap.xml。
注意
xml文件必须是utf-8的编码格式,可以用记事本打开xml然后另存为时选择编码(或转换器)为UTF-8。
考虑到sitemap.xml的制作的工作量的问题大家可以使用第三方软件,这里给大家推荐老虎sitemap生成器。google的管理员工具里也提供了sitemap生成器。但是需要有服务器管理权限 通过IIS来生成的,需要在服务器上安装。不是很方便。