robots 是站點與 spider 溝通的重要渠道,站點通過 robots 檔案宣告該網站中不想被 Google 和百度搜索引擎 收錄的部分或者指定 Google 和百度搜索引擎 只收錄特定的部分。
請注意,僅當您的 WordPress 網站包含不希望被 Google 和百度搜索引擎 收錄的內容時,才需要使用 robots.txt 檔案。
如果您希望 Google 和百度搜索引擎 收錄網站上所有內容,請勿建立 robots.txt 檔案。
robots 檔案往往放置於根目錄下,包含一條或更多的記錄,這些記錄通過空行分開 (以 CR 、 CR/NL 、 or NL 作為結束符),每一條記錄的格式如下所示:,”:”, 在該檔案中可以使用 #進行註解,具體使用方法和 UNIX 中的慣例一樣。
該檔案中的記錄通常以一行或多行 User-agent 開始,後面加上若干 Disallow 和 Allow 行, 詳細情況如下:,User-agent: 該項的值用於描述 Google 和百度搜索引擎 robot 的名字。
在”robots.txt” 檔案中,如果有多條 User-agent 記錄說明有多個 robot 會受到”robots.txt” 的限制,對該檔案來說,至少要有一條 User-agent 記錄。
如果該項的值設為*,則對任何 robot 均有效,在”robots.txt” 檔案中,”User-agent:*” 這樣的記錄只能有一條。
如果在”robots.txt” 檔案中,加入”User-agent:SomeBot” 和若干 Disallow 、 Allow 行,那麼名為”SomeBot” 只受到”User-agent:SomeBot” 後面的 Disallow 和 Allow 行的限制。
Disallow: 該項的值用於描述不希望被訪問的一組 URL,這個值可以是一條完整的路徑,也可以是路徑的非空字首,以 Disallow 項的值開頭的 URL 不會被 robot 訪問。
例如”Disallow:/help” 禁止 robot 訪問/help.html 、/helpabc.html 、/help/index.html,而”Disallow:/help/” 則允許 robot 訪問/help.html 、/helpabc.html,不能訪問/help/index.html 。
“Disallow:” 說明允許 robot 訪問該網站的所有 url,在”/robots.txt” 檔案中,至少要有一條 Disallow 記錄。
如果”/robots.txt” 不存在或者為空檔案,則對於所有的 Google 和百度搜索引擎 robot,該網站都是開放的。
Allow: 該項的值用於描述希望被訪問的一組 URL,與 Disallow 項相似,這個值可以是一條完整的路徑,也可以是路徑的字首,以 Allow 項的值開頭的 URL 是允許 robot 訪問的。
例如”Allow:/hibaidu” 允許 robot 訪問/hibaidu.htm 、/hibaiducom.html 、/hibaidu/com.html 。
一個網站的所有 URL 預設是 Allow 的,所以 Allow 通常與 Disallow 搭配使用,實現允許訪問一部分網頁同時禁止訪問其它所有 URL 的功能。
使用”*”and”$”:Baiduspider 支援使用萬用字元”*” 和”$” 來模糊匹配 url 。
“*” 匹配 0 或多個任意字元,”$” 匹配行結束符。
最後需要說明的是:百度會嚴格遵守 robots 的相關協議,請注意區分您不想被抓取或收錄的目錄的大小寫,百度會對 robots 中所寫的檔案和您不想被抓取和收錄的目錄做精確匹配,否則 robots 協議無法生效。