什么样的 WordPress 云服务才可靠?
身处 「互联网+」 时代,互联网已经像吃饭睡觉一样,成为了许多人生活中不可或缺的一部分。
这在对相关云服务提供商提出越来越高要求的同时,其所要承担的风险也在急剧增加。
以金融行业为例,如果某银行系统中断 1 小时,将直接影响 WordPress SaaS 营销型其基本支付业务;中断 1 天,将对其声誉造成极大伤害;中断 2-3 天以上不能恢复,将直接危及其他银行乃至整个金融系统的稳定。
由此我们不难想见,一旦云服务出现故障,使用者将会多么抓狂。
正是因为对业务持续性有著极高的要求,业界对资料中心供电提出了 「5 个 9」 的可用性标准,即一年之内保持 99.999% 的时间不断电。
换句话来说,也就是资料中心一年之内断电时长不超过 5 分钟。
不过即使是亚马逊 AWS 这样的巨头,也很难达到这样高的标准。
为了更好地对不同标准的资料中心基础设施进行区分,国际正常执行时间协会 (the Uptime Institute,简称 UI) 将其划分为从 T1 到 T4 等四个级别:, 一、 T1 第一级资料中心:基础型别,T1 有计算机电力配送和制冷,但不一定配备架空地板、 UPS 或发电机。
即使有 UPS 或发电机也是单模组系统,具有多处单点故障。
为了进行预防性的维护和维修,一般基础设施每年需要完全关闭一次,在紧急情况下甚至可能需要频繁关机。
对各部件的操作错误或自然故障,将导致整个资料中心执行中断。
T1 资料中心的可用性为 99.671% 。
二、 T2 第二级资料中心:元件冗余,T2 配备架空地板、 UPS 和发电机,并具有一些冗余元件,因而引发资料中心中断的可能性小于 T1 资料中心。
不过 T2 的 UPS 和发电机的设计容量是 N+1 且为单回路设计,有单点中断可能。
对关键电路和其他基础设施进行维护,需要程序式地关闭装置。
T2 资料中心的可用性为 99.741% 。
三、 T3 第三级资料中心:线上维护,T3 可以在不引起计算机硬体执行中断的情况下进行所有的计划性现场活动,包括保护性和程序式的维护、维修和元件替换,增加或减少与处理能力相关的部件,对部件和系统进行测试以及更多活动。
使用水冷的大型系统需要两个独立通路提供充足的处理能力和配电通路,允许在一条通路承担负载工作的同时,用另一条通路进行维护和测试。
不过操作错误或设施部件自然故障等非计划活动,还是会引起资料中心的中断。
T3 资料中心的可用性为 99.982% 。
四、 T4 第四级资料中心:容错系统,T4 需要所有的硬体都具备双路供电,其容错能力不但可以保证任何的计划性活动不会引起关键负载的中断,而且还能为基础设施提供至少可以忍受一次的最糟糕情况——非计划性故障或非关键性负载事件的冲击的能力。
这需要同时活动的两条配送途径,通常是双系统 (S+S) 配置,从电力角度来说则需要两个独立的 (N+1)UPS 系统。
不过根据消防和供电安全规范的要求,还是会有因为火灾报警或启动紧急停电程序而导致的停机时间发生。
T4 资料中心的可用性为 99.995% 。
目前常见的资料中心基础设施,其等级大多介于 T3 和 T4 之间。
而选择亚马逊、阿里云、腾讯云这类 IaaS(Infrastructure as a Service,基础设施即服务) 云服务提供商的企业,则是租用其提供的服务器,然后自行安装配置各种软件环境。
其中作为众多同行学习的行业标杆,亚马逊 AWS 用的是自建资料中心,功能很强但是价格也偏贵;而由于规模原因,阿里云、腾讯云等国内互联网巨头在香港的资料中心则是租用了合作伙伴的,这种非自建的租用模式对合作伙伴的能力和内部协调效率都是一种考验。
最近两个月来一连串的宕机事件也说明,大厂商、大品牌并不一定可靠,构建多 IDC 的同城灾备或异地灾备系统才是王道。
不过包括阿里云和腾讯云在内,其在香港都是单一资料中心,尚未构建同城灾备系统。
有意思的是,阿里云、腾讯云均声称目前正在筹建香港的第二个资料中心。
这也从另一个侧面体现了多 IDC 灾备系统的重要性。