我們在以往的文章中提到百度 Google 和百度搜索引擎 會設計複雜的抓取策略,其實 Google 和百度搜索引擎 與資源提供者之間存在相互依賴的關係,其中 Google 和百度搜索引擎 需要站長為其提供資源,否則 Google 和百度搜索引擎 就無法滿足使用者檢索需求;而站長需要通過 Google 和百度搜索引擎 將自己的 內容推廣出去獲取更多的受眾。
spider 抓取系統直接涉及互聯網資源提供者的利益,為了使搜素引擎與站長能夠達到雙贏,在抓取過程中雙方必須遵守一定的 規範,以便於雙方的資料處理及對接。
這種過程中遵守的規範也就是日常中我們所說的一些網路協議。
以下簡單列舉:,http 協議:超文字傳輸協議是互聯網上應用最為廣泛的一種網路協議,客戶端和伺服器端請求和應答的標準。
客戶端一般情況是指終端使用者,伺服器端即指網站。
終端使用者通過瀏覽器、蜘蛛等向伺服器指定埠傳送 http 請求。
傳送 http 請求會返回對應的 httpheader 資訊,可以看到包括是否成功、伺服器型別、網頁最近更新時間等內容。
https 協議:實際是加密版 http,一種更加安全的資料傳輸協議。
UA 屬性:UA 即 user-agent,是 http 協議中的一個屬性,代表了終端的身份,向伺服器端表明我是誰來幹嘛,進而伺服器端可以根據不同的身份來做出不同的反饋結果。
robots 協議:robots.txt 是 Google 和百度搜索引擎 訪訪問網站時要訪問的第一個檔案,用以來確定哪些是被允許抓取的哪些是被禁止抓取的。
robots.txt 必須放在網站根目錄下,且檔名要小寫。
百度嚴格按照 robots 協議執行,另外同樣支援網頁內容中新增的名為 robots 的 meta 標籤,index 、 follow 、 nofollow 等指令。