Google 向网站管理员提供的信息 - Googlebot

2005年10月21日 16:39 • 查看 2,352 次 • 打印本文

googlebotGooglebot:Google 的 Web 抓取工具
Googlebot 是 Google 的 web 抓取漫游器。它从 web 上收集文档,为 Google 搜索引擎建立可搜索的索引。此页解答了有关我们的web抓取工具如何运作的最常见问题。

有关如何防止 Googlebot 抓取您网站的全部或部分内容的详细信息,请参阅我们的删除页

 常见问题解答
  1. Googlebot 多久访问一次我的网页
  2. 如何要求 Google 不再抓取我的部分或全部网站?
  3. Googlebot 抓取我网站的速度太快。怎么办?
  4. 为什么 Googlebot 需要一种我服务器上不存在的称为 robots.txt 的文件?
  5. Googlebot 为什么试图从我的服务器或某个根本不存在的服务器上下载不正确的链接?
  6. Googlebot 为什么会从我们的“保密”Web 服务器上下载信息?
  7. Googlebot 为什么不遵循我的 robots.txt 文件?
  8. 为什么有来自多台 Google.com 上的计算机造访,且都带有 User-agent Googlebot?
  9. 为了便于我过滤日志,能否告诉我 Googlebot 从哪个 IP 地址抓取内容?
  10. Googlebot 为什么会多次下载我网站上的同一网页?
  11. 为什么 Googlebot 从我的网站上抓取的网页未显示在你们的索引中?
  12. Googlebot 追踪哪些类型的链接?
  13. 如何防止 Googlebot 追踪我网页上的链接?
  14. 如何阻止 Googlebot 抓取某网页上的单个外向链接?
  15. 此处没有我就 Googlebot 所提问题的答案,我该将其发送到哪里?
 问题解答

1. Googlebot 多久访问一次我的网页?

对大多数网站来说,Googlebot 的平均访问频率不会高于数秒钟一次。不过,由于网络延迟,在小段时间内,此频率可能会略高一些。

如何要求 Google不再抓取我的部分或全部网站?

robots.txt 是一个标准文档,意在阻止 Googlebot 从您的 Web 服务器下载某些或全部信息。Robot Exclusion Standard (漫游器排除标准)具体说明了 robots.txt 文件的格式。有关如何防止 Googlebot 抓取您网站的全部或部分内容的详细说明,请参阅我们的删除页。请记住,robots.txt 文件所作的更改不会立即反映在 Google 上,它们会在 Googlebot 下一次抓取您的网站时被发现和转播。

3. Googlebot 抓取我网站的速度太快。怎么办?

与我们联系,提供您网站的网址以及关于问题的详细说明。另外,请提供显示 Google 访问的部分 web 日志 (weblog) ,以便于我们快速追踪该问题。

4. 为什么 Googlebot 需要一种我服务器上不存在的称为 robots.txt 的文件?

robots.txt 是一个标准文档,用于阻止 Googlebot 从您的 web 服务器下载某些或全部信息。有关如何创建 robots.txt 文件的信息,请参阅The Robot Exclusion Standard(漫游器排除标准)。如果只想防止“未找到文件”错误信息出现在 Web 服务器日志中,您可以创建一个名为 robots.txt 的空文件。

5. Googlebot 为什么试图从我的服务器或某个根本不存在的服务器上下载不正确的链接?

众所周知,网络上的链接随时都可能被损坏或过时。任何时候有人向您的网站发布了不正确的链接(可能是由于输入错误或拼写错误)或者 更新链接的失败造成无法在您服务器上反映更改,Googlebot 都将试图从您的网站下载不正确的链接。这也可以解释为什么您会在根本不是 Web 服务器的计算机上获得访问。

6. Googlebot 为什么会从我们的“保密”Web 服务器上下载信息?

通过不发布与Web 服务器 的任何链接来对Web 服务器加以保密几乎是不可能的。只要有人追踪从您的“保密”服务器到其它 web 服务器的某个链接,您的“保密”网址就可能会出现在引用者标记中,并且有可能被其它 web 服务器保存并发布在其引用者日志中。因此,如果 Web 上任何位置有指向您的“保密”Web 服务器或网页的链接,Googlebot 和其它 web 抓取工具都有可能找到此链接。

7. Googlebot 为什么不遵循我的 robots.txt 文件?

为了节省带宽,Googlebot 只会每天,或者在我们从服务器上提取了许多网页时下载一次 robots.txt 文件, 所以,Googlebot 可能需要一段时间才能获知您的 robots.txt 文件的更改。此外,Googlebot 分布在多台计算机上, 这些计算机各自保留您的 robots.txt 文件的记录。

我们一直建议您根据 http://www.robotstxt.org/wc/exclusion.html#robotstxt 上的标准确认您的文件语法正确无误。常见的问题是未将 robots.txt 放在服务器的首目录中(例如, www.myhost.com/robots.txt ),存在子目录中文件不发挥任何作用。

此外, Googlebot 处理 robots.txt 文件的方式与 robots.txt 标准中说明的 (请注意 “ 应该 ” 与 “ 必须 ” 之间的区别)方式不完全相同。该标准要求我们遵循第一条适用规则,而 Googlebot 需遵循最长的(即最具体的)适用规则。后者更直观,更符合用户的实际行为以及对我们的要求。例如,注意下面的 robots.txt 文件:


User-Agent: *
Allow: /
Disallow: /cgi-bin

很明显,网站管理员的意图是允许漫游器抓取除 /cgi-bin 目录以外的所有内容。这也正是 Googlebot 的方式。

有关详细信息,请参阅漫游器常见问题解答

如果问题仍得不到解决,请告诉我们

8. 为什么有多台 Google.com 上的计算机造访,且都带有 User-agent Googlebot?

Googlebot 设计分布在多台计算机上,以适应网络的发展 , 改善性能和扩大规模。另外,为节省带宽用量,我们配置许多计算机在被索引网站的电脑网络附近 , 进行抓取。

9. 为了便于我过滤日志,能否告诉我 Googlebot 从哪个 IP 地址抓取内容?

Googlebot 使用的 IP 地址会不断改变。确定 Googlebot 访问的最好办法是使用 User-agent (Googlebot)。

10. Googlebot 为什么会多次下载我网站上的同一网页?

通常, Googlebot 在每次抓取中只会从您的网站下载每个文件的一个副本。极少数情况下,抓取工具会停止并重新开始,这可能导致其重新抓取最近检索到的网页。

11. 为什么 Googlebot 从我的网站上抓取的网页未显示在 Google 的索引中?

如果您不能立即找到 Googlebot 抓取到 Google 搜索引擎中的您的文档,请不必担心。文件被抓取后,很快就会列入索引。有时,由于各种原因 , Googlebot 提取的文档无法被索引(例如,它们看起来是 Web 上其它网页的复本)。

12. Googlebot 追踪哪些类型的链接?

Googlebot 会追踪 HREF 链接和 SRC 链接。

13. 如何防止 Googlebot 追踪我网页上的链接?

要阻止 Googlebot 追踪您网页上指向其它网页或文档的链接,应将以下元标记置入 HTML 文档的头部。

<META NAME=”Googlebot” CONTENT=”nofollow”>

要了解有关元标记的详细信息,请参阅 http://www.robotstxt.org/wc/exclusion.html#meta,以及 HTML 标准对于这些标记的必要说明。请记住,对您网站所作的更改不会立即反映在 Google 上,它们会在 Googlebot 下一次抓取您的网站时被发现和传播。

14. 如何阻止 Googlebot 抓取某网页上的单个外向链接?

元标记可以排除网页上的所有外向链接,但您也可以通过向超链接添加 rel=”nofollow”,指示 Googlebot 不要抓取具体链接。当 Google 在超链接上看到属性 rel=”nofollow” 时,这些链接在我们对搜索结果中的网站进行排名时将不会有任何帮助。例如链接:

<a href=http://www.example.com/>这是一个非常棒的链接!</a>

可以用以下链接代替:

<a href=http://www.example.com/ rel=”nofollow”> 我们不能为此链接提供担保</a>

15. 此处没有我就 Googlebot 所提问题的答案,我该将其发送到哪里?

如有问题,请与我们联系

转自Google官方网站

评论

发表评论