Baiduspider 抓取過程中涉及的網路協議

我們在以往的文章中提到百度 Google 和百度搜索引擎會設計複雜的抓取策略，其實 Google 和百度搜索引擎與資源提供者之間存在相互依賴的關係，其中 Google 和百度搜索引擎需要站長為其提供資源，否則 Google 和百度搜索引擎就無法滿足使用者檢索需求；而站長需要通過 Google 和百度搜索引擎將自己的內容推廣出去獲取更多的受眾。

spider 抓取系統直接涉及互聯網資源提供者的利益，為了使搜素引擎與站長能夠達到雙贏，在抓取過程中雙方必須遵守一定的規範，以便於雙方的資料處理及對接。

這種過程中遵守的規範也就是日常中我們所說的一些網路協議。

以下簡單列舉：,http 協議：超文字傳輸協議是互聯網上應用最為廣泛的一種網路協議，客戶端和伺服器端請求和應答的標準。

客戶端一般情況是指終端使用者，伺服器端即指網站。

終端使用者通過瀏覽器、蜘蛛等向伺服器指定埠傳送 http 請求。

傳送 http 請求會返回對應的 httpheader 資訊，可以看到包括是否成功、伺服器型別、網頁最近更新時間等內容。

https 協議：實際是加密版 http，一種更加安全的資料傳輸協議。

UA 屬性：UA 即 user-agent，是 http 協議中的一個屬性，代表了終端的身份，向伺服器端表明我是誰來幹嘛，進而伺服器端可以根據不同的身份來做出不同的反饋結果。

robots 協議：robots.txt 是 Google 和百度搜索引擎訪訪問網站時要訪問的第一個檔案，用以來確定哪些是被允許抓取的哪些是被禁止抓取的。

robots.txt 必須放在網站根目錄下，且檔名要小寫。

百度嚴格按照 robots 協議執行，另外同樣支援網頁內容中新增的名為 robots 的 meta 標籤，index 、 follow 、 nofollow 等指令。

版權聲明：本文為 WP SaaS 原創，採用 BY-NC-SA 協議授權。
原文鏈接：https://wpsaas.com/news/3758?variant=zh-tw 轉載請註明。