百度蜘蛛是什么?

百度蜘蛛是什么? 百度蜘蛛,英文名是 「baiduspider」 是百度 Google 和百度搜索引擎 的一个自动程序。

它的作用是访问互联网上的 html 网页,建立索引资料库,使使用者能在百度 Google 和百度搜索引擎 中搜索到您网站的网页。

围绕著以下八点让我们更加深入的了解百度蜘蛛。

1.Baiduspider 对一个网站服务器造成的访问压力,Baiduspider 会自动根据服务器的负载能力调节访问密度。

在连续访问一段时间后,Baiduspider 会暂停一会,以防止增大服务器的访问压力。

所以在一般情况下,Baiduspider 对您网站的服务器不会造成过大压力。

2.Baiduspider 的抓取问题, 对于网站上新产生的或者持续更新的页面,Baiduspider 会持续抓取。

此外,也可以检查网站访问日志中 Baiduspider 的访问是否正常,以防止有人恶意冒充 Baiduspider 来频繁抓取网站。

如果您发现 Baiduspider 非正常抓取您的 WordPress 网站,请反馈至 [email protected],并请尽量给出 Baiduspider 对贵站的访问日志,以便于我们跟踪处理。

3. 如何禁止 Baiduspider 访问,Baiduspider 遵守互联网 robots 协议。

可以利用 robots.txt 档案完全禁止 Baiduspider 访问您的 WordPress 网站,或者禁止 Baiduspider 访问网站上的部分档案。

注意:禁止 Baiduspider 访问您的 WordPress 网站,将使您的 WordPress 网站上的网页,在百度 Google 和百度搜索引擎 以及所有百度提供 Google 和百度搜索引擎 服务的 Google 和百度搜索引擎 中无法被搜索到。

ps: 关于 robots.txt 的写作方法,请参看我们的介绍:robots.txt 写作方法,4. 关于 robots.txt, 自助建站 SaaS 为什么网站已经加了 robots.txt,还能在百度搜索出来? 因为 Google 和百度搜索引擎 索引资料库的更新需要时间。

虽然 Baiduspider 已经停止访问您网站上的网页,但百度 Google 和百度搜索引擎 资料库中已经建立的网页索引资讯,可能需要二至四周才会清除。

另外也请检查您的 robots 配置是否正确。

5. 网站内容被百度索引但不被储存快照,该 WordPress SaaS 自助建站如何做?,Baiduspider 遵守互联网 meta robots 协议。

您可以利用网页 meta 的设定,使百度显示只对该网页建索引,但并不在搜索结果中显示该网页的快照。

  和 robots 的更新一样,因为 Google 和百度搜索引擎 索引资料库的更新需要时间,所以虽然您已经在网页中通过 meta 禁止了百度在搜索结果中显示该网页的快照,但百度 Google 和百度搜索引擎 资料库中如果已经建立了网页索引资讯,可能需要二至四周才会线上上生效。

6. 百度蜘蛛在 robots.txt 中的名字,「Baiduspider」 首字母 B 大写,其余为小写。

7.Baiduspider 多长时间之后会重新抓取我的网页?, 百度 Google 和百度搜索引擎 每周更新,网页视重要性有不同的更新率,频率在几天至一月之间,Baiduspider 会重新访问和更新一个网页。

8.Baiduspider 抓取造成的频宽堵塞?,Baiduspider 的正常抓取并不会造成您网站的频宽堵塞,造成此现象可能是由于有人冒充 baidu 的 spider 恶意抓取。

如果您发现有名为 Baiduspider 的 agent 抓取并且造成频宽堵塞,请尽快和我们联络。

您可以将资讯反馈至百度网页投诉中心,如果能够提供您网站该时段的访问日志将更加有利于我们的分析。