9.1 策略及规程定义

如果没有清晰的策略及规程,几乎不可能成功地管理路由器,必须用文档确定操作策略,明确不同管理级别的负责人以及他们的责任的时间,当路由器的配置发生变更后一定要用文档记录下来。规程记录的则是如何实施变更,包括发生了哪些变更以及恢复和测试规程。当更熟练的工程师开始处理网络问题以及涉及网络管理时,规程则规定了需要遵循的步骤。当然,还需要有明确的计划来宣传这些策略及规程,以便让所有的相关人员都了解它们以及它们所发生的变化。

在规定用户期望从网络中获得相应QoS(Quality of Service,服务质量)(如往返时延时间、最小吞吐量或网络可用性)的策略时应包含相应服务不能满足时所要采取的动作,这些就被称为SLA(Service Level Agreements,服务等级协定)。本节将详细描述SLA及变更管理策略、逐级上报规程以及保持策略和规程更新的必要性。

9.1.1 SLA

SLA明确定义了服务的质量和数量,以及何时、由谁来提供这些服务。SLA中规定的服务数量可以是向用户保证的响应时间和吞吐量以及最大抖动,一般以网络可用性的百分比来表示。SLA标示了网络何时可用、单次故障的最大时间、计划故障时间以及服务提供方,标示服务提供方非常重要,这样可以避免在责任范围上产生误解或分歧。通过定义每个组织机构所要负责的网络组件以及服务等级,可以避免任意指定带来的随意性。只有定义了清晰的SLA,提供SLA的组织机构和接收SLA的组织机构才能理解合同的约定并达成一致。SLA既可以由向本企业提供服务的外部组织机构(如ISP或为本企业提供网络外包服务的公司)提供,也可以由本企业内部向其他商业部门提供网络服务的IT部门提供。

最有效的SLA应该明确写出商业目的,例如,考虑以下SLA声明条款。

• 站点A与站点B之间1小时的平均往返时延小于50ms;

• 链路可用性不小于95%。

如果商业目标需要99.999%的可用性但往返时延达到400ms即可时,上述SLA声明就不是很有用。任何为特定应用、端站或站点提供特殊QoS的提供商都需要在SLA中包含所要保证的QoS等级。

如果不监控所提供服务,那么SLA就不能提供任何好处。在SLA中保证QoS的提供商需要验证用户或应用是否真地得到了SLA中规定的QoS,因而提供端到端保证的SLA必须得到端到端的监控。例如,以下两条SLA声明的测量方式就不一样。

• 站点A的用户与站点B的服务器之间1小时的平均往返时延小于200ms;

• 站点A的站点边界路由器与站点B的站点边界路由器之间1小时的平均往返时延小于100ms。

这两条SLA声明可能包含在同一个SLA中,需要分别进行监控。收集到的数据需要同时报告给服务提供商和服务用户,双方都需要阅读该报告以验证SLA是否得到满足。

9.1.2 变更管理

无变更管理策略的网络就像一个处于混沌状态的网络。变更管理策略是说明何时可以实施变更、由谁实施变更、如何记录和发布即将实施的变更以及如何和在何处记录整个变更情况。

变更管理策略规定了对网络或系统实施变更时所要遵循的规程,包括路由器配置变更、新设计方案实施、IOS升级甚至是新网络应用的实施等内容,应填写至少包括以下内容的电子表格。

• 谁请求变更;

• 为何要实施变更;

• 变更带来的影响是什么(不会造成破坏、可能会造成破坏、造成破坏);

• 何时实施变更;

• 实施变更需要多长时间;

• 变更的有效时间是多长;

• 对即将实施的变更来说,做了哪些测试规程;

• 谁进行的测试;

• 谁将负责实施变更;

• 实施变更将遵循什么样的规程;

• 为验证变更是否成功,需要执行什么样的变更后测试规程;

• 恢复规程是什么。

利用CCB(Change Control Board,变更控制委员会)可以监控任何指定星期内所有即将实施的变更,并批准或否决变更。CCB除了要包括网络设计、运行、维护和管理等各部门有经验的代表之外,还应包括使用网络的各部门(如组织机构内不同的商业单位)的代表。如果该网络是一个ISP,那么网络用户代表就可能是客户服务代表(负责一组客户的服务)。由 CCB负责审阅变更过程,以确保所有的网络架构师、运维人员、管理员、经理和客户支持人员以及网络用户都知晓变更计划和潜在的影响,并有机会在实施变更前考虑其他应对措施。

在实施变更之前,需要经全体CCB成员同意并经所有相关方签字确认,表示大家都已经知道了即将实施的变更情况及潜在的风险。

有时可能需要实施紧急变更(如为了解决某个故障),因而变更管理策略还需要规定紧急情况下的处理措施,包括谁可以实施紧急变更、在什么情况下可以实施紧急变更以及如何记录紧急变更。非常重要的一点是,必须记录所有的变更情况。为了能够在以后了解变更情况,便于处理将来网络中出现的路由器问题,可以利用表格来记录变更时间、变更内容、变更实施者,并引用变更描述文档(如表9-1所示)。

img531

假设位于站点Denver的某人向网络运行中心报告其去往远程站点的连接问题,称该问题首次出现在5/29/00、星期一早晨,变更日志清楚地显示影响Denver连接的变更发生于星期六晚上,这就为该故障的检测与排除提供了清楚的起始点。

并不是只有企业网需要严格的变更控制策略,ISP也可以从这些策略中获得极大的益处。对企业网来说,如果变更行为在不经意间影响了大量人员,将会给商业活动造成破坏,并招致最终用户的大量抱怨,而ISP网络上的破坏性变更则可能会潜在地影响大量企业,导致更严重的商业活动中断事故。这样一来,不仅会招致更多的抱怨人群,而且这些人还极有可能因不满现有的网络运行状况而更换到该ISP的竞争对手。

9.1.3 上报规程

明确定义的上报规程将规定各种能力级别的工程师在将故障问题提交到上一级工程师之前所应处理的时间,规定由谁以及如何向上一级转交故障问题,还规定了如何、何时以及以多大的频度向管理层通报这些故障问题,包括将仍未解决的问题提请管理层注意之前所经历的时间。

9.1.4 更新策略

制定得再好的策略都会随着新技术的出现或组织机构的变动而逐渐过时,因而必须保持更新以反应变动情况。需要通知实施这些策略和规程的相关人员并对他们做必要的培训,并且要向那些可能会受策略变动影响的相关人员通知所有的变动情况。