迅速发展的法国云计算提供商OVH公司美国市场正在积极追赶亚马逊和微软等巨头,并计划关闭和拆卸法国斯特拉斯堡园区的三个数据中心中的两个数据中心,然而在11月10日却造成了长时间的客户应用程序中断,中断持续了一整天,直到晚上才恢复。
在斯特拉斯堡园区停电大约40分钟之后,OVH公司位于法国鲁贝(Roubaix)的大一个数据中心的网络连接失去了六个关键网络接入点,其位置距斯特拉斯堡园区约500公里。OVH公司创始人兼首席执行官Octave Klaba说,这个网络中断事件与斯特拉斯堡数据中心中断事件无关,是由光纤网络设备软件错误引起的。
OVH公司位于法国斯特拉斯堡园区的SBG1集装箱数据中心
这个令人尴尬的事件是该公司的一个重大挫折。总部位于鲁贝的OVH公司近期获得了巨大的发展动力,获得了新的财务支持,并扩展到欧洲和北美地区的新市场。今年早些时候,它收购了VMware公司的公共云业务,并宣布在美国俄勒冈州建设一个数据中心,并在弗吉尼亚州的雷斯顿新建一个办事处。它还在弗吉尼亚州的Vint Hill建设了一个数据中心,离雷斯顿不远。OVH公司已经在蒙特利尔市场建设运营了一个数据中心。
OVH公司创始人兼首席执行官Octave Klaba随后在一篇详细的博客文章中写道:“这可能是我们发生的最糟糕的情况。”在这个博客文章中,他还描述了准备关闭使用集装箱建造的两个斯特拉斯堡数据中心,并决定缩短拆解的施工时间。
Klaba表示,“即使这个事件是由第三方厂商的设备所造成的,我们也不能否认自己的责任。我们在SBG集装箱数据中心开展了一些工作来达到与其他OVH数据中心相同的标准。
11月10日,斯特拉斯堡园区停电3.5小时,但是OVH公司的员工花费很多时间重新启动服务器并恢复应用程序。OVH公司自己构建的许多服务器显然都经历了由于中断而导致的硬件故障。来自鲁贝的一辆运送配件的卡车来到了斯特拉斯堡,工作人员在那里更换部件并启动服务器,一直工作到深夜。
OVH公司的Roubaix数据中心网络连接恢复正常比较容易,花费的时间也较少,但其影响范围广泛。这个数据中心园区网络连接巴黎,法兰克福,阿姆斯特丹,伦敦和布鲁塞尔的网络PoP,这些城市都是欧洲最重要的网络互联枢纽。
Klaba说,虽然把错误归咎于没有提到的光网络设备供应商,但是OVH最终还是因为没有过多的追究。
Klaba说,“我们将与OEM厂商合作,找出问题的根源,并帮助解决问题。我们不怀疑设备制造商的产品,即使这种类型的缺陷是特别关键。正常运行时间是一个设计问题,必须考虑到每一个可能性。OVH公司必须确保比它设计的每个系统更加可靠。”
Klaba所提到的第三方厂商的自动化故障是斯特拉斯堡园区的电力故障转移系统切换到发电机供电时发生故障。Klaba表示,OVH公司经常对故障转移系统进行测试,而最近在今年5月进行的一次测试没有发生任何问题。
但他承认,OVH公司在基础设施设计方面可以做得更多,以避免这次的电力中断事件。整个数据中心由一条20kV的公共馈电线馈电,而没有采用通常来自两个独立电网的冗余馈电的标准惯例。
Klaba表示,OVH为其他数据中心园区的个别数据中心使用冗余的电力传输和独立的电网,但在斯特拉斯堡园区两个数据中心(SBG1和SBG2)却只采用同一个电网的电力。
Klaba解释说,该公司开发了基于集装箱的数据中心设计,实际上将集装箱彼此堆放在一起,而不是采用传统建筑的数据中心,通过避免获得建筑许可证相关的时间限制来加速部署。这也是一个加快数据中心部署的测试,再投入一个新的市场,测试成功后,然后再进行大规模的投资。
SBG1数据中心是由八个集装箱组建成斯特拉斯堡的第一个数据中心,经过不到两个月的安装部署工作,于2012年上线运营。随着数据中心市场需求日益旺盛,于是OVH公司在2016年建成了非集装箱式SBG2数据中心,采用“塔式”设计,并开始建设第三个数据中心SBG3.
然而,在建设SBG2数据中心之前,由于OVH公司正在努力满足斯特拉斯堡的市场需求,2013年,OVH公司在这里建立了第二个集装箱数据中心SBG4.
现在,OVH公司为节省时间和资金而迅速部署产能的决定已经引起了极大的反响,决定投入200万到300万欧元,为数据中心园区安装部署第二套电力设施,并将客户从集装箱数据中心迁到SBG3数据中心,关闭并折卸集装箱数据中心。