> 经济 >

正文 >数据中心网络里的链路检测技术漫谈

数据中心网络里的链路检测技术漫谈

   2017-01-19 12:06   作者:   编辑:郭晴天
字号:T T

2017年1月14日,Ucloud云北京B区的业务发生了中断,中断的原因是运营商施工原因导致B区数据中心机房到北京核心汇聚点的两对光纤同时被挖断,导致业务中断。这让人想起了2015年5月的支付宝业务中断事件,也是运营商网络光纤被施工挖断导致,当时是四条大对数光缆中断。互连的光纤链路出现中断这类突发事件,如果没有一些备份和监控措施,就会导致业务受到影响。实际上,在数据中心内外部,类似于这样的链路故障问题时有发生,只不过这两个例子是影响比较大的。那么,数据中心怎么才能提前做好链路检测工作,避免发生类似问题呢?

链路故障是数据中心遇到的一种非常常见的故障类型。如果在数据中心内部,很好办,通过增加链路备份的方式,提升可靠性,一般分布在不同网络设备上,相互之间尽量隔离,这样当一侧链路出现故障时,业务及时切到另外一侧来,这个链路可以是两条也可以是多条,越多可靠性越高。最常见的方式是采用聚合的方式,其中有几条或数条有问题时,业务也可以切换到正常链路上来。如果在数据中心外部,尤其是租用运营商的线路,这个外部环境并不是数据中心能够控制的。如果在财力允许的情况下,可以租用多条链路。单条链路出故障,业务还可以走其它的链路。不过像Ucloud和支付宝都是有备份链路的,支付宝甚至有四条链路,只要有一条链路不断,业务也不至于全断。可惜的是四条全断的事件还是发生了,这时能够救数据中心的方式只能是有异地数据中心或者灾备数据中心,当正在运行的数据中心外部链路全部中断时,业务可以及时迁移到其它数据中心,保持业务不受影响。这也是建立灾备数据中心的重要性所在,如果说Ucloud和支付宝提前有完整的异地灾备系统,业务不至于中断这么久。平时在数据中心和灾备数据中心之间有实时的备份流量,一旦主用数据中心发生故障,应用自动切换到灾备数据中心上运行,切换过程非常短暂,对业务的影响微乎其微。