什麼樣的 WordPress 雲服務才可靠?

什麼樣的 WordPress 雲服務才可靠?

身處 「互聯網+」 時代,互聯網已經像吃飯睡覺一樣,成為了許多人生活中不可或缺的一部分。

這在對相關雲服務提供商提出越來越高要求的同時,其所要承擔的風險也在急劇增加。

以金融行業為例,如果某銀行系統中斷 1 小時,將直接影響 WordPress SaaS 營銷型其基本支付業務;中斷 1 天,將對其聲譽造成極大傷害;中斷 2-3 天以上不能恢復,將直接危及其他銀行乃至整個金融系統的穩定。

由此我們不難想見,一旦雲服務出現故障,使用者將會多麼抓狂。

正是因為對業務持續性有著極高的要求,業界對資料中心供電提出了 「5 個 9」 的可用性標準,即一年之內保持 99.999% 的時間不斷電。

換句話來說,也就是資料中心一年之內斷電時長不超過 5 分鐘。

不過即使是亞馬遜 AWS 這樣的巨頭,也很難達到這樣高的標準。

為了更好地對不同標準的資料中心基礎設施進行區分,國際正常執行時間協會 (the Uptime Institute,簡稱 UI) 將其劃分為從 T1 到 T4 等四個級別:, 一、 T1 第一級資料中心:基礎型別,T1 有計算機電力配送和製冷,但不一定配備架空地板、 UPS 或發電機。

即使有 UPS 或發電機也是單模組系統,具有多處單點故障。

為了進行預防性的維護和維修,一般基礎設施每年需要完全關閉一次,在緊急情況下甚至可能需要頻繁關機。

對各部件的操作錯誤或自然故障,將導致整個資料中心執行中斷。

T1 資料中心的可用性為 99.671% 。

二、 T2 第二級資料中心:元件冗餘,T2 配備架空地板、 UPS 和發電機,並具有一些冗餘元件,因而引發資料中心中斷的可能性小於 T1 資料中心。

不過 T2 的 UPS 和發電機的設計容量是 N+1 且為單迴路設計,有單點中斷可能。

對關鍵電路和其他基礎設施進行維護,需要程序式地關閉裝置。

T2 資料中心的可用性為 99.741% 。

三、 T3 第三級資料中心:線上維護,T3 可以在不引起計算機硬體執行中斷的情況下進行所有的計劃性現場活動,包括保護性和程序式的維護、維修和元件替換,增加或減少與處理能力相關的部件,對部件和系統進行測試以及更多活動。

使用水冷的大型系統需要兩個獨立通路提供充足的處理能力和配電通路,允許在一條通路承擔負載工作的同時,用另一條通路進行維護和測試。

不過操作錯誤或設施部件自然故障等非計劃活動,還是會引起資料中心的中斷。

T3 資料中心的可用性為 99.982% 。

四、 T4 第四級資料中心:容錯系統,T4 需要所有的硬體都具備雙路供電,其容錯能力不但可以保證任何的計劃性活動不會引起關鍵負載的中斷,而且還能為基礎設施提供至少可以忍受一次的最糟糕情況——非計劃性故障或非關鍵性負載事件的衝擊的能力。

這需要同時活動的兩條配送途徑,通常是雙系統 (S+S) 配置,從電力角度來說則需要兩個獨立的 (N+1)UPS 系統。

不過根據消防和供電安全規範的要求,還是會有因為火災報警或啟動緊急停電程序而導致的停機時間發生。

T4 資料中心的可用性為 99.995% 。

目前常見的資料中心基礎設施,其等級大多介於 T3 和 T4 之間。

而選擇亞馬遜、阿里雲、騰訊雲這類 IaaS(Infrastructure as a Service,基礎設施即服務) 雲服務提供商的企業,則是租用其提供的伺服器,然後自行安裝配置各種軟體環境。

其中作為眾多同行學習的行業標杆,亞馬遜 AWS 用的是自建資料中心,功能很強但是價格也偏貴;而由於規模原因,阿里雲、騰訊雲等國內互聯網巨頭在香港的資料中心則是租用了合作夥伴的,這種非自建的租用模式對合作夥伴的能力和內部協調效率都是一種考驗。

最近兩個月來一連串的宕機事件也說明,大廠商、大品牌並不一定可靠,構建多 IDC 的同城災備或異地災備系統才是王道。

不過包括阿里雲和騰訊雲在內,其在香港都是單一資料中心,尚未構建同城災備系統。

有意思的是,阿里雲、騰訊雲均聲稱目前正在籌建香港的第二個資料中心。

這也從另一個側面體現了多 IDC 災備系統的重要性。