引用:http://support.google.com/webmasters/bin/answer.py?hl=zh-Hans&answer=182072
Googlebot 是 Google 的网页抓取机器人(有时称为“信息采集软件”)。抓取是 Googlebot 发现新网页和更新的网页以将这些网页添加到 Google 索引中的过程。
我们使用许多计算机来提取(或“抓取”)网站上的大量网页。Googlebot 使用算法确定抓取过程:计算机程序确定要抓取的网站、抓取频率以及从每个网站抓取的网页数量。
进行抓取时,Googlebot 会先查看以前的抓取过程所生成的一系列网页网址,包含网站站长提供的站点地图数据。Googlebot 在访问其中的每个网站时,会检测各网页上的链接(SRC 和 HREF),并将这些链接添加到要抓取的网页列表。它会记录新出现的网站、现有网站的更新以及无效链接,并据此更新 Google 索引。
致语网站站长:Googlebot 和您的网站
Googlebot 如何访问您的网站
Googlebot 对大多数网站的平均访问频率为几秒钟一次。但是,如果网络有延迟,则访问频率可能会在短时间内有所提高。一般来说,Googlebot 每次只会下载各网页的一份副本。如果您发现 Googlebot 多次下载同一网页,可能是因为抓取工具停止后又重新启动所致。
我们将 Googlebot 分布在多台计算机上,以便提高性能并随着网络规模的扩大而扩大。此外,为了降低带宽占用,我们会在几台计算机上运行多个抓取工具,而这些计算机通常位于他们正在网络中编制索引的网站附近。因此,您的日志可能会显示来自 google.com 上的多台计算机的访问记录,而且所有计算机使用的都是用户代理 Googlebot。我们的目标是:每次访问您的网站时,以您服务器的带宽所允许的速度尽可能多地抓取网页。请求更改抓取速度。
阻止 Googlebot 抓取您网站上的内容
对于网络服务器,要想通过不发布指向它的链接的方式来达到保密目的几乎是不可能的。只要有人通过您“私密”服务器上的链接访问其他网络服务器,您的“私密”网址就会出现在引用页标签中,而其他网络服务器也会存储这些网址并将其发布在自己的引用页日志中。同样,网络中包含许多过期和已损坏的链接。只要有人发布了指向您网站的不正确链接,或未能成功更新链接以反映您服务器的更改,Googlebot 就会尝试从您的网站下载不正确的链接。
如果要阻止 Googlebot 抓取您网站上的内容,您可以选择使用多种方法,包括使用 robots.txt 阻止其访问您服务器上的文件和目录。
您创建完 robots.txt 文件后,Googlebot 可能需要一段时间才能发现您的更改。如果 Googlebot 仍继续抓取您在 robots.txt 文件中阻止的内容,请检查 robots.txt 文件的位置是否正确。该文件必须位于服务器的顶层目录(例如:www.myhost.com/robots.txt)中;如果位于子目录,则不会产生任何效果。
如果您只想阻止网络服务器日志显示“未找到文件”这样一种错误讯息,则可以创建名为 robots.txt 的空文件。如果您想阻止 Googlebot 跟踪您网站上某网页中的任何链接,则可以使用 nofollow 元标记。要阻止 Googlebot 跟踪某个链接,请在该链接中添加 rel="nofollow"
属性。
下面提供了更多相关提示:
- 测试 robots.txt 是否按照预期方式工作。使用网站站长工具中的“测试 robots.txt”工具,您可以亲眼看看 Googlebot 究竟是如何解析 robots.txt 文件中的内容的。Google 用户代理为
Googlebot
,这再合适不过了。 - 使用网站站长工具中的“Googlebot 抓取方式”工具,您可以了解 Googlebot 看到的网站究竟是什么样子。对网站内容或网站在搜索结果中的出现率进行问题排查时,此工具非常有用。
确保您的网站可被抓取
Googlebot 通过跟踪指向网页的各种链接抓取网站。在网站站长工具的抓取错误页中,会列出 Googlebot 抓取您的网站时所发现的全部问题。我们建议您定期查看这些抓取错误,以识别您网站上出现的所有问题。
如果您正在运行的 AJAX 应用程序中包含您要在搜索结果中显示的内容,那么我们建议您查看如何让基于 AJAX 的内容可以抓取并编入索引的方案。
如果您的 robots.txt 文件运行正常,但网站的访问量仍无起色,则请点击此处了解一些可能导致您的内容在搜索结果中排名不佳的原因。
有关垃圾信息发送者和其他用户代理的问题
Googlebot 使用的 IP 地址会随时发生变化。要确定访问是否来自 Googlebot,最好的办法是使用用户代理 (Googlebot)。您可以使用 DNS 反向查找,验证访问您服务器的机器人究竟是不是 Googlebot。
Googlebot 和所有正规的搜索引擎机器人都会遵循 robots.txt 文件中的指令,但某些不良漫游器和垃圾信息发送者则不会。向 Google 报告垃圾内容。
Google 还拥有其他若干用户代理,包括 Feedfetcher(用户代理 Feedfetcher-Google)。Feedfetcher 请求是由已将供稿添加到其 Google 首页或 Google 阅读器的用户手动(而不是使用自动抓取工具)发送的,因此 Feedfetcher 并不按照 robots.txt 中指定的准则操作。您可以将自己的服务器配置为向用户代理 Feedfetcher-Google 发送 404、410 或其他错误状态讯息,从而阻止 Feedfetcher 抓取您的网站。有关 Feedfetcher 的详情。