robots 寫法

robots 是站點與 spider 溝通的重要渠道,站點通過 robots 檔案宣告該網站中不想被 Google 和百度搜索引擎 收錄的部分或者指定 Google 和百度搜索引擎 只收錄特定的部分。

請注意,僅當您的 WordPress 網站包含不希望被 Google 和百度搜索引擎 收錄的內容時,才需要使用 robots.txt 檔案。

如果您希望 Google 和百度搜索引擎 收錄網站上所有內容,請勿建立 robots.txt 檔案。

robots 檔案往往放置於根目錄下,包含一條或更多的記錄,這些記錄通過空行分開 (以 CR 、 CR/NL 、 or NL 作為結束符),每一條記錄的格式如下所示:,”:”, 在該檔案中可以使用 #進行註解,具體使用方法和 UNIX 中的慣例一樣。

該檔案中的記錄通常以一行或多行 User-agent 開始,後面加上若干 Disallow 和 Allow 行, 詳細情況如下:,User-agent: 該項的值用於描述 Google 和百度搜索引擎 robot 的名字。

在”robots.txt” 檔案中,如果有多條 User-agent 記錄說明有多個 robot 會受到”robots.txt” 的限制,對該檔案來說,至少要有一條 User-agent 記錄。

如果該項的值設為*,則對任何 robot 均有效,在”robots.txt” 檔案中,”User-agent:*” 這樣的記錄只能有一條。

如果在”robots.txt” 檔案中,加入”User-agent:SomeBot” 和若干 Disallow 、 Allow 行,那麼名為”SomeBot” 只受到”User-agent:SomeBot” 後面的 Disallow 和 Allow 行的限制。

Disallow: 該項的值用於描述不希望被訪問的一組 URL,這個值可以是一條完整的路徑,也可以是路徑的非空字首,以 Disallow 項的值開頭的 URL 不會被 robot 訪問。

例如”Disallow:/help” 禁止 robot 訪問/help.html 、/helpabc.html 、/help/index.html,而”Disallow:/help/” 則允許 robot 訪問/help.html 、/helpabc.html,不能訪問/help/index.html 。

“Disallow:” 說明允許 robot 訪問該網站的所有 url,在”/robots.txt” 檔案中,至少要有一條 Disallow 記錄。

如果”/robots.txt” 不存在或者為空檔案,則對於所有的 Google 和百度搜索引擎 robot,該網站都是開放的。

Allow: 該項的值用於描述希望被訪問的一組 URL,與 Disallow 項相似,這個值可以是一條完整的路徑,也可以是路徑的字首,以 Allow 項的值開頭的 URL 是允許 robot 訪問的。

例如”Allow:/hibaidu” 允許 robot 訪問/hibaidu.htm 、/hibaiducom.html 、/hibaidu/com.html 。

一個網站的所有 URL 預設是 Allow 的,所以 Allow 通常與 Disallow 搭配使用,實現允許訪問一部分網頁同時禁止訪問其它所有 URL 的功能。

使用”*”and”$”:Baiduspider 支援使用萬用字元”*” 和”$” 來模糊匹配 url 。

“*” 匹配 0 或多個任意字元,”$” 匹配行結束符。

最後需要說明的是:百度會嚴格遵守 robots 的相關協議,請注意區分您不想被抓取或收錄的目錄的大小寫,百度會對 robots 中所寫的檔案和您不想被抓取和收錄的目錄做精確匹配,否則 robots 協議無法生效。