6.7 Wi-Fi核心网高可用性规划
随着网络应用的日益深入,各种增值业务在网络上得到了广泛部署。网络短时间的中断就可能影响大量业务,造成重大损失。作为业务承载主体的基础网络,其高可用性(High Availablity,HA)也因此日益成为关注的焦点。
对于高可用性网络有以下基本要求。
首先,高可用性网络不能频频出现故障。只要发生故障,即使是很短时间的中断,都会影响业务运营,尤其对实时性强、对丢包和时延敏感的业务,如语音和视频。
其次,高可用性的网络应具有快速恢复的能力。假如一个网络满足故障频率低的要求,但一次故障就需要很长时间才能恢复,这样的网络也称不上高可用性的网路。
6.7.1 可靠性与可用性
可靠性和可用性是常见的IT系统衡量指标,两者同是可靠性科学中经常涉及的两个指标,但两者的定义和物理概念是有明显区别的。
可靠性通用的定义是:在规定环境条件下和规定的时间内,完成规定功能的能力。这种定义方式既适用于一个系统,也适用于一台设备。衡量可靠性的主要指标是平均故障间隔(Mean Time Between Failure,MTBF),单位为h,计算式如下:
MTBF=(总规定时长-总故障时长)/故障次数 (6-4)
式中:总规定时长即定义中规定的时间长度;总故障时长为在规定时间内由于故障无法正常运行的时长;故障次数是在规定时间内发生故障的次数,前提是系统在零时刻处于正常工作状态。一个相关的度量标准是平均修复时间(Mean Time To Repair,MTTR),指修复故障组件所花费的平均间隔时间,单位为h,计算式如下:
MTTR=总故障时长/故障次数 (6-5)
任何设备和由这些设备组成的系统都有一个可靠性问题。可以说,任何设备和系统都不是绝对可靠的。这种不可靠原因,既有产品设计、生产质量、运行环境和操作因素,也有系统配置的合理性和可维护性因素。从设备和系统的有效使用功能看,系统设计和可维护性的影响更为突出。因此,在可靠性研究中又引入可用性的概念。
可用性的定义为:电子系统在使用过程中(尤其在不间断连续使用的条件下),可以正常使用的时间与总时间之比。系统的可用性需要通过MTBF和MTTR共同衡量。可用性级别可由下式计算:
可用性级别=(总规定时长-总故障时长)/总规定时长
=MTBF/(MTBF+MTTR) (6-6)
可见,可用性级别是一个没有单位的比值。通常,可用性级别用‘9’的个数来划分,如表6-17所示。
表6-17 可用性级别
两者的定义非常相似,但有一个重要的差别,即系统是可维修的还是不可维修的。对于一个不可维修的系统,随着时间变得无限大,可用性渐渐地趋近0;当系统可维修时,可用性将趋向于某个有限值,这个有限值是系统故障频率和修复速度的函数。可靠性的概念是针对设备硬件而言的,在设备出厂的那一刻就己确定下来;而可用性是在可靠性的基础上集中考虑了非硬件的各种软件因素,这集中表现在设备故障后的修复时间。
提高可靠性需要强调减少系统中断的次数,系统中单个组件的可靠性都会影响到整个系统的可靠性。通常,通过提高硬件冗余来设计系统,获得容错。容错是指当系统的一部分出现故障时,系统可以继续运行。如果任何单个组件发生故障,则冗余组件将取代它,而不会察觉到停机时间。
提高可用性,除提高可靠性外,还需要强调减少从灾难中恢复所需的时间,如使用合理备份、业务连续性计划等方式来减少从灾难中恢复的时间。
Wi-Fi网络通常要求能够提供很高的可用性,以支持用户的各种关键性网络应用。
6.7.2 影响系统可用性的因素
现网中常把可用性级别定位“五个9”,即99.999%。这相当于每年的宕机时间约为5min。在通常情况下,由于系统可用性需要综合考虑众多子系统的可用性,即每个子系统的可用性级别要比这个值高得多,因此要达到这一目标非常困难。
在对系统初建、升级或审查时,应考虑每个子系统。因为它们对于数据中心的正常运转、宕机时间会产生巨大影响。为了实现总体系统的高可用性,就要按子系统进行可用性“配备”。由于每个子系统实际的可用性级别不同,因此每个子系统的可用性目标也不同。应尽量避免大部分子系统的可用性能够达到标准但由于某些子系统的可用性不高使整个系统的可用性级别很低的情况发生。
表6-18给出了一些子系统对可用性影响的例子。
表6-18 部分子系统影响可用性示例
6.7.3 Wi-Fi核心网高可用性节点机房分布原则
为了提供Wi-Fi核心网的高可用性,Wi-Fi核心网的机房建设及设备节点分布应遵循以下原则。
(1)建网时需要对“大容量、少局所”的建网原则进行辩证分析,从省网级、大区级、本地网级、局所级和楼层级考虑核心网设备的选址,避免同类网元部署过于集中。
(2)相同功能的网元尽量分散设置(例如:对于省级网元,应尽量分散在不同的本地网;对于本地网网元,应尽量建在不同的机房),若同局址设置应分散供电。根据相关资料,100km以上的异地冗余备份将是未来的一种趋势。
(3)核心网网元设置于同步数字体系(Synchronous Digital Hierarchy,SDH)骨干环上传输条件较好、有双物理出局路由的电信楼内。对于重要路由,在有条件的情况下,可考虑空中传输(如卫星、微波等方式)备份。
(4)机房建筑、设备安装、机房消防、设备加固、布缆路由、平面布局等需满足各项抗震、防火要求;新建机房可适当提高相关抗震设防烈度和机房大楼耐火等级。
(5)重要设备采取双电源供电方式,并尽量采用直流供电,适当增大蓄电池容量,供电线路及电气设备进行冗余配置。
(6)结合“节能减排”,全面考虑空调机组容量冗余和室外机、管线、敷设路由的备份,充分考虑分区设置和双电源供电。
6.7.4 网络高可用性规划主要技术
网络的高可用性规划根据不同的角度可以采用不同的技术,主要包括端口级冗余、网元级冗余和网络级冗余。
1.端口级冗余
端口级冗余是指对同一逻辑接口提供多个物理接口,将负荷分担到不同的接口上,当一个端口出现故障时不影响业务。端口冗余可以是同类型端口互备,如均为SDH接口互备;也可以是不同类型端口互备,如SDH接口、E1接口、快速以太网(Fast Ethernet,FE)接口互备。
2.网元级冗余
网元级冗余是指为不同类型的单板设置主备板,两者互为补充,并进行负荷分担。通常情况下,主要控制板卡需要进行热备份;至同一局向的中继或信令应尽量分散在不同的处理板上,采用分开的实体路由;网元设置门限适当降低,网元数量增加,并分散下沉到较小的行政区域;重要网元的冗余度配置适当提高,在经济合理的前提下,建议设备容量按用户容量的1.5倍配置;加强核心网网元、设备各板件、中继负荷、话务流向的监控,及时实施话务控制;若信号传输点(Signaling Transfer Point,STP)至各局向发生传输全阻,建议关闭非重要和信令负荷较低的局向,优先转接重要局向的信令。
3.网络级冗余
网络级冗余是通过网络拓扑结构的冗余性来提高网络设备的可靠性,而不是主要依靠网络设备本身。虽然配置冗余设备、冗余链路和冗余转发路径会提高网络成本,但这种高可用性规划方法具有以下优势。
首先,提供冗余性的备用网元无需与主用网元处于同一位置,从而降低了因物理环境造成的服务中断几率。
其次,因软件故障、软件升级、配置错误或配置变化等引起的网络中断问题,可以在主用和备用转发路径上分别进行处理,而不会引起网络服务的完全中断。因此,网络级的冗余机制可以减少软件故障对网络造成的可用性冲击。
再次,通过网络拓扑结构提供的冗余性,无需为每个网元都独立地进行最优的容错性配置,从而降低了设备级容错的配置需求。
最后,可以将冗余性网络配置为无需人工干预即可实现从主用设施到备用设施的自动恢复。此时,网络服务的中断时间就可以等于故障恢复时间,而故障恢复时间一般能达到秒级,从而大大加速了网络的恢复速度。
在Wi-Fi网络的可用性规划中,可综合采用端口级冗余、网元级冗余和网络级冗余来实现Wi-Fi网络的可用性。由于端口级冗余和网元级冗余易于规划,故本章不作介绍,以下部分将详细阐述AC和核心路由器的网络级冗余解决方案。
6.7.5 Wi-Fi网络中AC的高可用性规划
AC的高可用性规划通常包括1+1型、N+1型以及虚拟集群化3种。下面将具体阐述这3种AC的高可用性规划。
1.1+1型
1+1型冗余方案指为每台AC都热备份一台AC,保证即使所有的在线AC同时出现故障,无线网也能正常工作。其中,主用AC与备份AC之间通过虚拟路由器冗余协议(Virtual Router Redundancy Protocol,VRRP)或者直接通过心跳线来连接,而无线AP与主用AC之间通过公用和私用信息(Public And Private Information,PAPI)协议检测相互之间的工作情况,其原理图如图6-10所示。
图6-10 1+1型冗余方案
2.N+1型
N+1型冗余方案是指在正常AC外添加一台热备份AC,当有一台AC出现故障时,热备份的这台AC可以接替故障AC的工作,其原理图如图6-11所示。
图6-11 N+1型冗余方案
此处备份AC作为每一个主用AC的备份,当任一台主用AC不可用时,备份AC就接管这台主用AC上的AP。
下面是主要设备厂商AC所支持的备份方式。
(1)大唐:只支持1+1方式;
(2)国人:支持1+1和N+1两种方式;
(3)摩托:支持1+1和N+1两种方式(N最大支持12);
(4)思科:支持1+1和N+1方式。
3.虚拟集群化Wi-Fi AC
除了以上两种AC冗余方案,目前,Trapeze又推出了虚拟集群化Wi-Fi AC,提供了更为领先的AC冗余方案。
与服务器集群相似,每台AC为一组协同工作的AC,贡献自己的容量和资源,这组AC被称为“虚拟AC集群”。其中每个AC的容量各不相同,可以随意部署在网络的任何位置。表6-19总结了虚拟集群化Wi-Fi AC与传统主用/备用方式的比较。
表6-19 虚拟AC集群与传统主用/备用方式比较
由表6-19所示,虚拟集群化Wi-Fi AC具有不中断业务的故障恢复、动态调整和负荷均衡、集中管理、简化冗余配置等优势。但是,虚拟集群化Wi-Fi AC会存在单点故障隐患,且当前支持的厂商相对较少。
6.7.6 Wi-Fi网络中核心网三层交换机的高可用性规划
三层交换机的高可用性规划主要可以通过VRRP和STP来进行冗余设置。
1.VRRP
VRRP是一种选择协议,可以把一个虚拟路由器的责任动态分配到局域网中的任一台VRRP路由器上。在该协议中,对共享多存取访问介质(如以太网)上终端IP设备的默认网关(Default Gateway,DG)进行冗余备份,从而当其中一台路由设备宕机时,备份路由设备及时接管转发工作,向用户提供透明的切换,提高网络服务质量。
在VRRP协议中,有两组重要的概念:VRRP路由器和虚拟路由器,主控路由器和备份路由器。VRRP路由器是指运行VRRP的路由器,为物理实体;虚拟路由器是指VRRP协议创建的逻辑概念。VRRP将局域网的一组路由器(包括一个主控路由器和若干个备用路由器)组织成一个虚拟路由器,称为一个备份组。处于同一个VRRP组中的路由器具有两种互斥的角色:主控路由器(即Master路由器)和备份路由器(即Backup路由器),一个VRRP组中有且只有一台处于主控角色的路由器,可以有一个或者多个处于备份角色的路由器。
使用VRRP时,VRRP协议通过选择策略从路由器组中选出一台作为主控,负责转发数据包到虚拟路由器的IP地址,虚拟IP地址在路由器间共享,组中的其他路由器作为备份的角色处于待命状态。当主路由器由于某种原因不可用时,这个虚拟IP地址就会映射到一个备份路由器的IP地址,这个备份路由器就成为了当前的主用路由器,其原理如图6-12所示。使用VRRP的优点是有更高的默认路径的可用性而无需在每个终端主机上配置动态路由或路由发现协议。
在使用VRRP之前,一个网络内的所有主机都设置一条缺省路由(如图所示,10.100.10.1)。这样,主机发出的目的地址不在本网段的报文将被通过默认路由发往路由器RouterA,从而实现了主机与外部网络的通信。当路由器RouterA出现故障时,本网段内所有以RouterA为默认路由下一跳的主机将断掉与外部的通信。
图6-12 VRRP协议原理
当采用VRRP之后,虚拟路由器拥有自己的IP地址10.100.10.1(这个IP地址可以和备份组内的某个路由器的接口地址相同),备份组内的路由器也有自己的IP地址(如Master的IP地址为10.100.10.2,Backup的IP地址为10.100.10.3)。局域网内的主机仅仅知道这个虚拟路由器的IP地址10.100.10.1,而并不知道具体的Master路由器的IP地址10.100.10.2以及Backup路由器的IP地址10.100.10.3,它们将自己的默认路由下一跳地址设置为该虚拟路由器的IP地址10.100.10.1。于是,网络内的主机就通过这个虚拟的路由器来与其他网络进行通信。
如果备份组内的Master路由器发生故障,Backup路由器将会通过选举策略选出一个新的Master路由器,形成虚拟IP的重新映射,继续向网络内的主机提供路由服务,从而实现网络内的主机不间断地与外部网络进行通信。
2.STP和RSTP
STP应用于环路网络,通过一定的算法实现路径冗余,同时将环路网络修剪成无环路的树型网络,从而避免报文在环路网络中的增生和无限循环。
STP的基本原理是,通过在交换机之间传递一种特殊的协议报文(在IEEE 802.1D中这种协议报文被称为“配置消息”)来确定网络的拓扑结构。配置消息中包含了足够的信息来保证交换机完成生成树计算。
STP的基本思想就是生成“一棵树”,树的根是一个称为根桥的交换机。根据不同设置,不同的交换机会被选为根桥,但任意时刻只能有一个根桥。由根桥开始,逐级形成一棵树,根桥定时发送配置报文,非根桥接收配置报文并转发。如果某台交换机能够从两个以上的端口接收到配置报文,则说明从该交换机到根桥有不止一条路径,便构成了循环回路,此时交换机根据端口的配置选出一个端口并把其他的端口阻塞,消除循环。当某个端口长时间不能接收到配置报文的时候,该交换机认为端口的配置超时,网络拓扑可能已经改变,此时重新计算网络拓扑,重新生成一棵树。
使用STP来避免冗余性设置的拓扑如图6-13所示。
图6-13 STP避免冗余性设置
如图6-13所示,其中一台汇聚交换机是奇数VLAN生成树的根设备,另一台汇聚交换机是偶数VLAN生成树的根设备,汇聚交换机使用的是多层交换机。对于偶数VLAN来说,奇数VLAN中的备用VRRP路由器是偶数VLAN中的活动VRRP路由器。而对于奇数VLAN来说,偶数VLAN中的备用VRRP路由器则是奇数VLAN中的活动VRRP路由器。
在实施冗余链路时,对接入VLAN而言,接入层和汇聚层交换机件的所有上行链路都被配置成中继方式,并且对一半VLAN来说,接入交换机的每个上行链路接口/端口都处于转发状态,而对另一半VLAN而言,这些接口/端口则处于阻塞(丢弃)状态。当接入交换机的一条上行链路或汇聚交换机出现故障时,由另一条上行链路负责转发所有VLAN的流量。工作组服务器一般都通过双高速中继链路同时与两台汇聚交换机建立连接关系。
但是,由于协议机制本身的局限,STP保护速度慢(即使是1s的收敛速度也无法满足电信级的要求),如果在城域网内部运用STP技术,用户网络的动荡会引起运营商网络的动荡。
与传统的STP相比,快速生成树协议(Rapid Spanning Tree Protocol,RSTP)在收敛速度上有非常大的提高。RSTP遵循IEEE 802.1w规范,虽然是用来代替802.1D规范的STP,但仍然与STP相兼容。当交换机链路(连接)属于全双工链路(专用链路/点到点链路),且连接工作站的接入端口工作于PortFast(端口快速收敛)模式下时,RSTP的优势最为明显。