robots 寫法 - WP SaaS

robots 是站點與 spider 溝通的重要渠道，站點通過 robots 檔案宣告該網站中不想被 Google 和百度搜索引擎收錄的部分或者指定 Google 和百度搜索引擎只收錄特定的部分。

請注意，僅當您的 WordPress 網站包含不希望被 Google 和百度搜索引擎收錄的內容時，才需要使用 robots.txt 檔案。

如果您希望 Google 和百度搜索引擎收錄網站上所有內容，請勿建立 robots.txt 檔案。

robots 檔案往往放置於根目錄下，包含一條或更多的記錄，這些記錄通過空行分開（以 CR 、 CR/NL 、 or NL 作為結束符），每一條記錄的格式如下所示：,”:”, 在該檔案中可以使用 #進行註解，具體使用方法和 UNIX 中的慣例一樣。

該檔案中的記錄通常以一行或多行 User-agent 開始，後面加上若干 Disallow 和 Allow 行, 詳細情況如下：,User-agent: 該項的值用於描述 Google 和百度搜索引擎 robot 的名字。

在”robots.txt” 檔案中，如果有多條 User-agent 記錄說明有多個 robot 會受到”robots.txt” 的限制，對該檔案來說，至少要有一條 User-agent 記錄。

如果該項的值設為*，則對任何 robot 均有效，在”robots.txt” 檔案中，”User-agent:*” 這樣的記錄只能有一條。

如果在”robots.txt” 檔案中，加入”User-agent:SomeBot” 和若干 Disallow 、 Allow 行，那麼名為”SomeBot” 只受到”User-agent:SomeBot” 後面的 Disallow 和 Allow 行的限制。

Disallow: 該項的值用於描述不希望被訪問的一組 URL，這個值可以是一條完整的路徑，也可以是路徑的非空字首，以 Disallow 項的值開頭的 URL 不會被 robot 訪問。

例如”Disallow:/help” 禁止 robot 訪問/help.html 、/helpabc.html 、/help/index.html，而”Disallow:/help/” 則允許 robot 訪問/help.html 、/helpabc.html，不能訪問/help/index.html 。

“Disallow:” 說明允許 robot 訪問該網站的所有 url，在”/robots.txt” 檔案中，至少要有一條 Disallow 記錄。

如果”/robots.txt” 不存在或者為空檔案，則對於所有的 Google 和百度搜索引擎 robot，該網站都是開放的。

Allow: 該項的值用於描述希望被訪問的一組 URL，與 Disallow 項相似，這個值可以是一條完整的路徑，也可以是路徑的字首，以 Allow 項的值開頭的 URL 是允許 robot 訪問的。

例如”Allow:/hibaidu” 允許 robot 訪問/hibaidu.htm 、/hibaiducom.html 、/hibaidu/com.html 。

一個網站的所有 URL 預設是 Allow 的，所以 Allow 通常與 Disallow 搭配使用，實現允許訪問一部分網頁同時禁止訪問其它所有 URL 的功能。

使用”*”and”$”：Baiduspider 支援使用萬用字元”*” 和”$” 來模糊匹配 url 。

“*” 匹配 0 或多個任意字元,”$” 匹配行結束符。

最後需要說明的是：百度會嚴格遵守 robots 的相關協議，請注意區分您不想被抓取或收錄的目錄的大小寫，百度會對 robots 中所寫的檔案和您不想被抓取和收錄的目錄做精確匹配，否則 robots 協議無法生效。

版權聲明：本文為 WP SaaS 原創，採用 BY-NC-SA 協議授權。
原文鏈接：https://wpsaas.com/news/3598?variant=zh-tw 轉載請註明。