第10章

    Chapter 10

    初识网规网优

    第10章Chapter 10初识网规网优 - 图1

    在前面的9章里,我们一直介绍的是移动通信的标准。按标准制作出来的叫做产品,对于世界上的绝大多数产品而言,后续的步骤一般只有两步,即“安装调测”和后期的“维修”,对于复杂一点的产品比如说汽车之类的或许可以叫做“维护”,因为除了做检修还需要做保养之类的。

    无线通信的产品可以算是一个异类,它除了需要“安装调测”和“维护”之外,还需要再增加两个步骤,即在安装调测之前的“网络规划”和安装调测之后的“网络优化”。也就是说,无线通信设备的售后过程一般包含“网络规划—安装调测—网络优化—设备维护”等环节,其复杂程度往往远远高于其他产品。

    在这个产品售后的长链条的每个环节中,往往都有不同的参与主体,一般而言是这样划分的:“网络规划——设计院”、“安装调测——设备厂家的外包合作方”、“网络优化——设备厂家或第三方”、“设备维护——设备厂家”,请注意的是,这4个环节和运营商都是紧密相关的,都有运营商的人深度参与。

    我们下面来具体阐述一下这个利益链条是如何运作的,为什么要这样运作。对于刚刚进入通信大门的学子或者试图进入这个行业的人而言,这些内容或许非常重要。

    对于无线通信而言,网络规划的主要工作就是根据当前网络的状况及对未来几年业务发展的预测,来判断需要安装多少基站、配置多少载频和功能软件。以及这些基站具体分布在哪里,天线的高度和方位如何。网络规划的工作一般而言由设计院来承担,其盈利模式就是在总投资里按固定的比例进行抽成,比如3%,作为设计费。网规对人的要求相对而言比较高,所以薪水还比较可观。其实网规的工作设备商也可以做,而且在有些地方的有些项目(比如说交钥匙工程)确实是由设备商来承担的,不过一般而言都会交给设计院来做。其中的道理不难明白,因为设备商是产品的提供方,如果由他们来做设计的话,岂不是基站设备越多越好?所以需要引进设计院加以制衡。

    安装调测是整个售后服务中技术含量相对较低的工作,而且有标准化的作业流程可循,按照步骤来操作变数很小,操作方法容易掌握,所以往往被设备厂商外包出去给第三方。这个工作相对比较简单,所以薪水也没有那么高。

    网优在通信行业里算得上一个高薪的职位,同时网优人才也长期处于短缺状态。因为网优是一件相当复杂的工作,需要对设备、参数、信令流程非常熟悉才可以胜任,有时候甚至需要熟悉当地的地形地貌。同时,网优的技能往往不能光靠学习,需要一个项目一个项目的进行经验积累,经验比知识来得还更重要。除此之外,网优工作的流动性非常大,一个地方的网优项目做完了,就需要到另一个地方去,出差非常之多,这一块也需要给予必要的经济补偿。由于网优工作需要掌握相当的技能,积累相当的经验,同时还要承受长期出差带来的不便,这几点使得网优工作成了一个高薪职业。在国内,有很多家大小不等的第三方网优公司,承接各地运营商的优化项目。但现在,设备商开始越来越多地渗入这个领域,设备商相对第三方网优公司而言更了解自己的设备,也可以得到自己公司研发体系的支持,借此优势,设备商在这一块正在赢得越来越多的份额。

    设备的维护工作相对网优而言要简单一点,流动性也比网优小得多。因为设备出问题都是突发性的,需要迅速处理,否则就会造成重大影响和经济损失,所以设备维护人员一般都是比较稳定地常驻在某个地方,负责设备日常的维护和关键时候的故障处理。

    以上4点是整个售后服务环节的工作,通常拆解为几部分然后由不同类型的公司来完成。但是这几年开始出现一个趋势,几家主要的设备商,比如爱立信、华为、诺基亚西门子都开始从单纯的卖设备向设备和服务销售并重,并逐步扩大服务销售在整个销售额中的比例。这是因为服务能让运营商产生依赖性,假设一个地方的网规网优、维护都是由你来做,队伍都已经和运营商整体耦合,配合得很好,那么新购设备通常也会优先考虑你,因为买别家的设备又要和别家的人来进行磨合,很费事。设备商通过进一步向下游的服务进行渗透,和运营商形成更紧密的战略合作,从而可以达到屏蔽竞争对手的目的。

    在本章里,我们主要来初步介绍一下网规网优。就运营商的市场人员而言,网优网优的质量直接关系着最终用户的感知(比如单通、掉话、串音等),所以有必要了解一下网规网优的基本知识,看懂一些最关键的反映网络质量的指标数据(接通率、掉话率、上下行平均下载速率),这样不但可以和后台的运维人员更好地沟通,也有利于因地制宜地制定更好的营销政策;对于设备商方面的人员而言,网络的性能就是运营商客户最关心的东西,所以只要你跟客户打交道,不管你是纯销售也好,售前技术支持、研发也罢,虽然不需要做网规网优的动作,但是还是应该懂一点网规网优的内容,这样和客户交流的时候可以更好地理解客户当前网络的问题在哪里,关注的点在哪里。对于设计院、第三方网优公司、设备商里网规网优相关人员,如果是刚入门,也不妨翻看一下,可以快速有一个整体的概念。

    接下来,就让我们正式进入网规网优的内容,在网规网优里,有几个词汇是经常要碰到的。第一个词,也就是最关键的词就是“覆盖”,这不难理解,没有覆盖,信号都没有,还谈何优化;第二个词,提得最多的往往是“掉话率”,掉话对用户而言是一种感知非常差的通信行为,试想,你正在谈生意或者跟女朋友说悄悄话,这电话突然“滴答滴”就断了,甚至悄无声息就断了,那得多扫兴,多影响心情啊,这个词排行第二大家应该感同身受;第三个词叫做“接通率”,具体现象就是打别人的电话,电话里告诉你“您拨打的号码暂时无法接通”,对用户而言这也是一种糟糕的体验,不过比掉话而言又好一点,起码通话还没有开始,受的影响没有那么大。除这几个之外,还有什么干扰啊、单通啊、串音之类的,但相比上述几个问题,都不是最关键的。

    10.1 一个永恒的话题——基站能覆盖多远

    网优人员也好,运维人员也罢,被人问的最多的一个问题恐怕都是——一个基站究竟能够覆盖多大的地方?对于这个问题,不同的人可能有不同的关心角度。运营商地市的总经理可能关心它,因为他要根据业务的发展情况,估算在某个区域的投资,他可能要考虑:在这个区域的投资能够建设多少个基站,覆盖率能达到多少,能够支持市场的推进么;网络建设和运行维护的经理也可能关心它,因为在某个区域,或许就有那么一片覆盖空白,要解决这个问题,究竟需要建几个基站呢;或者一个对网络什么都不懂,仅仅对它有一点点兴趣的路人甲或者路人乙也可能问起你这个问题,这也并不奇怪,因为我们这行在媒体上曝光率最高的词汇无非就是“基站”、“辐射”之流,问你辐射你或许答不上来或者不愿意回答,那剩下可以聊的就只剩下基站的覆盖了。

    悲哀的是,这个问题几乎永远没有标准答案,是典型的1000个人眼里就有1000个哈姆雷特的情况。不管你咨询资深网优人员也好,咨询技术专家也罢,你得到的答案都会是林林总总,五花八门。有人说一个基站可以覆盖500米,也有人说一个基站可以覆盖10千米,如果你耐心问更多人,还会得到更多的答案。

    出现这样的局面也并不奇怪,因为决定基站能覆盖多少距离的因素太多了,以至于随便哪个答案你都不能说不对。这些因素里面还有很多是不可控因素,比如作者就亲眼见过一份网优报告,在这份网优报告里面是如此陈述某一天某些原本没有什么问题的区域是如何突然打不了电话的,其结论是“受到了太阳黑子的影响!”。Oh My God,我们又不是上帝,哪里管得了太阳的运动。因此在本节里,我们所要做的也不是给这个问题一个确切的答案,而是搞清楚哪些主要因素会对信号的传播造成衰减,衰减一大,覆盖范围就会变小,衰减一小,覆盖范围就会变大。定量的工作需要精心的测量、专业的工具,更恐怖的是还需要复杂的数学公式,这可不是本书的目的。本书倡导的是简单,如果可能,就尽量不要去招惹欧拉、傅里叶、麦克斯韦,但是在本节里,我们依然会用到公式,当然不是由数学家们在实验室里一笔一画推算出来的公式,而是实干家们经过大量的实地测试,一点一滴累积起来的经验公式。即使如此,作者依然不打算用这些公式去计算什么覆盖半径之类的,虽然一些经典通信书籍告诉我们这些公式确实可以拿来进行计算,但是这样过于复杂。对于运营商和设备商的大多数人而言,我们所需要知道的只不过是哪些因素会影响覆盖,如果覆盖情况不好,我们可以通过调整哪些东西来达到覆盖变好的目的就够了。当然要达到这个目的,公式也有它的作用,那就是公式把这些主要的因素都罗列了上去,清晰明了,便于学习,这样你不拿着笔上去算具体的结果,公式还是比较可爱的。

    我们从高中的物理课上就可以知道,要想得到什么公式,首先就得建立某种模型,模型的作用是提供一种理想化的环境,屏蔽一切你不喜欢看到的因素,将问题简单化。问题只有简单化才能公式化,变量必须足够地少,毕竟解三元一次方程可比解N元N次方程来得简单得多。

    第10章Chapter 10初识网规网优 - 图2

    图10.1 自由空间传播模型

    那么首先我们就来考虑一种最简单的模式,叫做“自由空间传播模型”(如图10.1所示),所谓自由,就是没有阻挡,也就是说任何障碍物都没有的场景,用一句红楼梦里的话来说就是“大地一片白茫茫真干净”。这种场景也并非没有,在一些地广人稀的平原地区的农村,竖起高高的铁塔,地面上稀稀拉拉几个建筑物,电磁波可以随心所欲自由驰骋,基本上可以算作“自由空间”了。

    在自由空间里,介质都是理想的、均匀的,电磁波在其中不发生反射、折射、绕射、散射和吸收等现象,只存在电磁波能量扩散而引起的传播损耗。

    第10章Chapter 10初识网规网优 - 图3

    式中,Pt是发射功率;Pr是接收功率;Gt是发射天线增益;Gr是接收天线增益;λ是波长;d是距离。好家伙,我们不过是想知道一下手机的接收功率,竟然搞得这么复杂,相信也没有几个人有耐心看得下去。

    有没有简便一点的公式呢?有的,因为我们要知道一个基站到底能覆盖多远,那么在既定的功率下只要知道一路上的损耗有多大即可,因为手机的接收灵敏度是有限的,损耗过大导致接收功率过小它就没有办法进行解调了。

    怎么样来衡量损耗的多少呢,很简单,用发射功率除以接收功率即可,也即第10章Chapter 10初识网规网优 - 图4,这样我们不难得出路径损耗L,如式(10.2)所示,这个式子看起来比式(10.1)要清爽很多,即

    第10章Chapter 10初识网规网优 - 图5

    如果我们用分贝来表示,就可以描述如式(10.3)所示:

    第10章Chapter 10初识网规网优 - 图6

    也就是说,频率越高,距离越远,损耗也就越大。我们从式(10.3)可以计算出来,1800MHz的损耗比900MHz要高6个dB,所以大家也就不难理解为什么1800MHz的基站覆盖距离没有900MHz的基站远了。需要指出的是,自由空间是不吸收电磁能量的。实质上自由空间的传播损耗是说,球面波在传播过程中,随着传播距离的增大,电磁能量在扩散过程中引起的球面扩散损耗。电波的自由空间传播损耗与距离的平方成正比。实际上,手机天线所捕获的信号能量只是基站发射机天线发射能量的一小部分,大部分能量都散失掉了。

    很多人在从事无线通信工作之初可能并不习惯用dB来衡量信号的强度,这并不奇怪,因为我们习惯用加减乘除而不是对数来衡量这个世界。就像作者一样,每当看到盎司、英寸、新台币、克拉这样的单位都感到非常抓狂,总喜欢把它们换算成自己熟悉的单位。但是实际上大家今后在工作中就会发现,在无线的世界里,信号波动范围是非常大的,来个快衰落或者进个电梯,你手机的信号变化幅度可能有几百上千倍,但是换算成dB就只有25~30dB,那么你觉得是用倍数来衡量方便呢,还是用dB来衡量方便呢?

    可惜自由空间传播模型在现实生活中毕竟太少了,尤其是城市,那是高楼林立,无线环境复杂得要命。不过面对这样的复杂局面,20世纪60年代,还是有人不畏麻烦地对日本的电波环境做了大量的测试。用实证的精神把这个问题解出来了,得出了经验公式。请注意,这个是经验公式,不是坐在实验室里一张纸一支笔算出来的。解决这个问题的人名叫Okumura(奥村),在移动通信领域可谓大大有名。

    不过Okumura的模型毕竟诞生于20世纪60年代,到了20世纪80年代,计算机技术开始蓬勃发展。有个叫Hata的人觉得Okumura模型用计算机来表述太不方便,于是他以奥村的大量测试结果为基础,增加了多个校正因子,形成了一个新的校验公式,叫做Okumura-Hata公式。

    在这里,我们主要介绍Okumura模型,因为这个模型相对Hata模型来得要简单,而且我们又不需要在这里做仿真,这个模型已经足够用了。Okumura模型如式(10.4)所示,这个公式在自由空间传播模型的基础上进行了修订。

    第10章Chapter 10初识网规网优 - 图7

    在式(10.4)中,L50为传播路径损耗50%处的值(即中值);LF为自由空间传播模型中的损耗;Amu(f,d)为相对自由空间传播模型多出的损耗。至于为什么市区环境相对自由空间会多出这么一部分损耗,理由很简单,市区环境中存在大量的折射、绕射、反射和吸收,这些动作都会造成能量损失,所以在原来传播损耗的基础上增加一个Amu(f,d)来进行修正是很符合情理的。我们来看看Amu(f,d)的修正曲线,如图10.2所示。

    第10章Chapter 10初识网规网优 - 图8

    图10.2 相对于自由空间,多出来的衰减值

    我们看到,相对自由空间增加的这一部分损耗Amu(f,d)依然是距离d和频率f的函数,距离越远,频率越高,这一部分新增损耗越大。到这里为止,Okumura模型描述的场景依然说的是接收功率是距离d和频率f的减函数,相对自由空间模型不过是损耗更大而已。这与我们的日常经验也相符,我们都知道,离基站越远,信号越差,然后1800MHz的信号比900MHz的要差。那么除了这两个变量,是否还有别的变量呢?

    恩,确实有,就是式(10.4)中的G(hte)、G(hre)、GAREA。GAREA没有什么特别的表达式,说的是环境类型带来的增益,我们一般取经验值。而G(hte)、G(hre)说明的是天线带来的增益,这又是怎么个增益法呢。我们来看式(10.5)到式(10.7)。

    第10章Chapter 10初识网规网优 - 图9

    从上述几个公式可以看出,基站天线位置越高,手机天线位置越高(说明人在二楼、三楼),天线接收的电磁波被阻挡得越少,增益越大。如果读者有过工程经验或者优化经验,这一点不难理解,基站的天线位置越高,损耗也就越小,覆盖也就越远。

    曾经有一句古话叫做“登高振臂一呼”,要对N多人喊话,首先的动作就是要先爬上一个高台,这样声音才能传得更远。看来不用Okumura总结,我们的先人已经知道了这么个道理。至于手机的位置为什么要高,在我们的生活中也有类似的场景,比如去戏园子里看戏,大人有时候会把小孩高高擎起,放在肩膀上(相当于手机位置移高),为啥?还不是因为高处受的阻挡比较少,看得清楚,听得也清楚。

    在这里把影响基站传播距离的几点因素都罗列如下,方便读者进行查找和对照。

    (1)基站发射功率越大,覆盖越远(见式(10.1),发射功率Pt越大,接收功率Pr自然越大)。这也就是现在为什么GSM基站有的通过60W来提升覆盖距离(GSM基站的标准发射功率为20W),WCDMA有的通过40W来提升覆盖效果(WCDMA基站的标准发射功率也为20W)。其实我们也有过这样的体验,比如导游,面对一群人喊话,总嫌自己嗓门不够大、覆盖范围不够广,基站由于设计的原因,有办法提高自己的发射功率,可是咱们人类的嗓子和肺活量可不是说变就能变的,所以导游同志往往只好身上挂个扩音喇叭,通过这个附加设备来提升自己的音量。

    (2)频率越高,损耗越大(见式(10.2),损耗L跟距离d的平方成正比)。

    (3)基站天线位置越高,增益越大,损耗越小(见式(10.4)和式(10.5))。

    (4)手机如果在比较高的位置,受到的障碍物的阻挡比较少,接收的信号强度比在平地上要大(见式(10.6)和式(10.7))。而且在2层楼以上效果比较显著(式(10.7)相比式(10.6)的增益要翻番,其差别在3m这个分水岭上)。

    上面4点结论非常重要,因为它解释了几个常见现象。比如为什么频段高的设备覆盖效果不如频段低的(GSM1800M不如GSM900),为什么基站需要铁塔(把天线高高挂起,覆盖更远的距离)。

    我们可以对基站的覆盖距离进行测算然后决定基站的数量和具体位置,这个工作一般是设计院和运营商的网络建设部的内容。设备商人员和运营商市场人员知道了这几个结论,就能和网规人员更好地沟通,以期取得更佳的后期效果。

    10.2 谁让你变成了地图测绘人员——谈谈那该死的路测和CQT测试

    如果说对基站的覆盖效果进行评估和调整网规和网优人员都有参与,那么本节所述的路测和拨打测试基本就是实打实的纯网优工作,跟网规基本不搭界。

    一直以来,网优部门在运营商里面就被看成比较神秘的部门,因为它们与其他部门交集比较少,所从事的工作又很复杂,一般人并不太了解。更重要的一点是,这个部门的人总是见不到人,一问,经常得到的回答就是:“出去搞路测去了”,或者说“出去搞拨打测试去了”,这两项工作局外人听得云里雾里,因此更增添了这个部门的神秘感。那么,什么是路测和拨打测试?为什么要做这些事情?做这些事情对网络有什么好处?

    在回答这些问题之前作者想先讲两个故事,让大家对网优里面路测的工作有一个比较感性的故事。

    作者大学毕业时曾经参加了某省一家运营商的面试,面试官正是省公司人力资源部总监。当时一起面试的除了作者还有好几个人,这几个人跟作者一样老家都是这个省的。面试官面试完我们之后开始拉家常,拉家常的方式很特别,就是问你是哪个县哪个村的,当你说完之后面试官若有所思,然后跟你描述那一块的山川河流,人物风景,好像他亲自去过一样。一连七八个人,都来自不同的地方,他竟能一一说出来当地的情况,着实把我们一个个雷得里焦外嫩。后来一问缘由,才知道该人力总监原来是技术出身,在该运营商草创之时,把全省多数地方跑了个遍。

    后来作者在该运营商工作了一段时间,逐渐知道了工程选址和路测是怎么回事。有一次和一个网优人员一起出去吃饭,席间他频频和几个服务员美眉搭讪,所采取的手段也无非是问人家的老家,然后展示他对当地的山川地理的熟悉程度,引来几个美眉频频侧目,问他是从事何等职业。在一旁的作者已经熟悉了这个套路,因此丝毫没有给他面子,答道:“他是搞地图测绘的”。

    地图测绘不过是句玩笑话,但读者也不难从中看出路测的艰辛程度和在路测的时候对当地的电磁环境(山川地理)的了解程度。所谓路测,也叫DT(Driver Test,驱车测试);所谓拨打测试,也叫CQT(Call Quality Test,呼叫质量拨打测试)。通常,很多问题都可以在网络上体现出来。但是,还有很多问题在网络上并不能得到体现,那就非得去现场不可。而在现场的测试方法,也无非以上两种,DT测试和CQT测试。

    DT测试的作用除了定点清除某些故障以外,其主要的作用还是用来反映一个城市每条道路的网络质量情况。其原理是这样的,在车里用一台测试手机和计算机相连,在计算机上调好程序,让手机拨打某个号码,通话一阵后自动挂断,过一阵再拨打,再通话,如此周而复始,其作用就是模拟普通用户的通话情况,计算机在后台收集这些数据,一圈跑下来之后再对数据进行分析。

    且慢!虽然你在路上不断地拨打电话来模拟用户行为,但是这些数据汇总之后,你怎么知道某个电话具体是在哪个地点拨的?如果不知道具体的地点的话,你接下来怎么进行有针对性的优化?所以除了用来做拨打测试的手机和收集数据的计算机以外,还需要有一样设备用来配合记录通话的地点,那就是GPS。

    “笔记本电脑”、“测试手机”、“GPS”可谓是路测的三剑客,缺一不可!由于路测经常在外面跑,经常要受颠簸,而且颠簸的时候还要能正常工作,不能死机,硬盘也不能坏掉,所以用于路测的计算机往往是高端笔记本电脑,在早年路测人员的工具组合中,几乎都是清一色的“小黑”——IBM Thinkpad,如图10.3所示。

    第10章Chapter 10初识网规网优 - 图10

    图10.3 一套典型的路测设备

    那么路测得到的结果是什么呢,通常是如图10.4所示的路测地图,我们会发现一张路测地图上会根据每个段落接收电平的大小来标注不同的颜色。比如图10.4中,-140dBm至-95dBm这个区间用红色标注(由于本书不是彩色印刷,无法显示颜色,具体情况大家可参见任意一张路测图),说明信号极差,需要马上进行优化或者加站;-95dBm至-85dBm这个区间用黄色标注,说明信号有待加强,但是还可以接受;-85dBm至-80dBm这个区间用蓝色标注,说明信号不错;-80dBm至-75dBm这个区间用绿色标注,说明信号非常好。

    不要以为得出的这个结果很简单,图上其实还有很多小的标注,由于书的纸张大小的问题,我们无法在本书的插图中一一展示出来。这些小的标注记录了很多关键事件,比如掉话、切换等。这些关键事件可以点开来看,你可以看到整个通话过程的信令流程,从而能对具体的问题做出详细的分析。DT测试能对问题的具体地点进行精确的定位(有赖于GPS),又能反映网络的一大堆信息(接收电平、通话质量、干扰水平、掉话、拥塞情况等),所以是当前用的最多的分析网络状况的手段。

    DT测试的优势是明显的,但是其弱点也同样非常明显,那就是汽车只能在马路上开,很多地方都去不了,比如林荫道、走廊、室内,等等。我们看看图10.4,就会发现路测只能反映某几条线的网络情况,然后全网大片大片的地方空着,不知信号质量如何,这些地方汽车去不了或者不好去,就只能两眼一抹黑。

    更重要的是,据统计,通常在马路上打电话的情况是比较少的,80%的电话都是发生在室内。对于室内通话的效果的评估,路测显然是无能为力的。也就是说路测花费大量的精力和物力能反映的问题连20%都不到,其他80%甚至更高比例的问题我们需要通过其他方式来解决。

    第10章Chapter 10初识网规网优 - 图11

    图10.4 湖北省宜昌市路测情况

    比如某个VIP用户家里信号不好,你打算怎样来评估他所处位置的信号质量呢?是开着汽车绕着他所在的小区转一圈,还是叫个人拿着测试手机在他家门口进行一下测试,甚至进屋里去测试?如果条件允许的话,答案显然是后者。在当前情况下,CQT测试是DT测试有效的补充,也是目前室内测试的主要方法。

    当然,除了CQT测试能去DT不能去的地方以外,还有其他的优势,那就是DT测试得到的是一堆冷冰冰的数据,而CQT测试是人在现场打电话,得到的是直接的感知。另外,像回音、串音等网络问题不能通过DT测试发现。

    拨打测试一般是在城市中选择多个测试点,在每一个测试点进行一定数量的呼叫和被叫。通过记录接通情况和测试者主观评估的通话质量,来分析网络的运行质量和存在的问题。

    我们看到,DT测试和CQT测试都是当前主要的评估网络的方法,但是这两种方法都有一个共同的问题,那就是成本很高。要对城市的道路进行评估,需要开车围着城市转,人员、车辆、设备的投入都不小;至于CQT测试,成本就更高昂了,一个人一天也跑不了几个点,只能用于解决一些重点客户的投诉。

    除此之外,DT和CQT都是通过机器拨打或者人工拨打的方式来对用户的感知进行小批量的模拟和评估。这毕竟是一种抽样的做法,这样一来样本容量有限,无法了解全网的情况,大家看图10.4,满城跑的DT测试,所得出的结果也不过是那几条线而已,遑论CQT测试了;二来毕竟是在模拟用户的感受,不是用户当时的、直接的真实感受,有没有什么办法得到用户在当时通话过程的感受呢?

    10.3 一场网优的人民战争——MR测量报告

    做网优的人都有一个梦想,假如有一天不再需要开着汽车,到农村坑坑洼洼的路上去颠簸,抑或是在城市里把时间都打发给等待红绿灯,那该有多好。还有那个该死的CQT测试,最好也别叫我去,去大楼里蹿上蹿下地打电话、记录数据和填表格,实在不是一件轻松的事情。最好是能够舒舒服服地坐在办公室,泡上一杯咖啡,打开电脑,测试数据就有了,这个数据最好还别是我们自己人测的,最好是最终用户测试的数据,这样才能更真实地反映他们的感受,这不比模拟的强么。

    试想一下,自己不用出去做DT测试和CQT测试,给所有用户发一个测试手机,由他们去对整个网络进行无死角、全天候的测量。测量的数据可以自动汇总上来,网优人员只需要坐在办公室里喝咖啡和敲键盘即可。发动人民战争,让全民陪你一起做网优,这是怎样的春秋大梦啊,听起来是不是比那个“我想有一套房子,背靠二环,面朝大海,春暖花开,4M宽带,不还房贷”还不靠谱。

    不过,现在这种梦想可以部分实现了,部分这个词很有嚼头,至于为什么是部分实现,我们一会再说。无论是GSM还是WCDMA,抑或是cdma2000、TD-SCDMA,手机其实在通话的过程中都在不断向BSC上报一种数据,这种数据对于网络而言是不可或缺的,它的名字就叫做测量报告(Measure Report)。

    手机在通话的过程中,总会不断地对下行链路的接收电平、接收质量等进行测量,一定周期内,手机还会对邻区的接收电平进行测量。与此同时,基站也在对上行链路的接收电平、接收质量进行测量。手机在测量这些数据的同时,也通过上行链路将这些信息发送给基站,基站对信息进行汇总,就构成了如图10.5所示完整的测量报告。

    这些测量报告对于功率控制和切换这些无线通信中的关键动作而言是极其重要的。就以GSM为例,要是手机和基站都不向BSC上报测量报告,BSC就没有上下行的接收电平的数值,不知道电平值,上下行的功率控制也就无从谈起。另外,除了电平值以外,上下行的接收质量以及邻小区的情况都是用来进行切换的重要参考信息。

    第10章Chapter 10初识网规网优 - 图12

    图10.5 测量报告(GSM)

    对于WCDMA或是TD-SCDMA,上报的内容略有不同,比如会上报扰码、Ec/No,RSCP等。但是其作用与GSM也大同小异,都是用来做功率控制和切换控制的。

    我们看到,测量报告初始的作用是为了进行功控和切换等一系列关键动作。到后来,人们发现由于测量报告是对人们通话过程中的一些关键数据的实时的真实记录,很有利于呈现全网的情况,又把这部分报告单独提取出来做网优用。这跟搜索引擎的发展历程有点类似,搜索引擎先是根据用户输入的关键字(相当于测量报告)来做相应的反应,呈现相应的数据(类似于BSC根据测量报告来进行功控、切换等动作)。到后来发现用户输入的这些关键字极富价值,都可以用来反映搜索引擎用户的整体相关情况,根据《壹佰度》的记载,百度都可以根据这些信息来出具相当权威的咨询材料了。

    用MR数据来对网络进行分析有以下几个优点:其一是海量数据,和DT与CQT不同,MR数据可以涵盖一个网络所有载波的所有时间的上报数据,试想一下,路测和拨打测试要对全网的每一个载频都测试到,那得花费多长的时间和多少人力物力;其二是这些数据源于的就是最终用户当时通话的情况,而DT和CQT是在模拟,是在试图重复用户通话的情况,怎么来说都是第二手数据,不如第一手数据更能反映用户的真实感受。

    我们在上面说了很多MR测量报告的优点,接下来要说一个它的致命缺点,正是这个缺点,让它无法取代DT测试和CQT测试,而只能成为诸多网优手段中的一种。这个缺点就是MR数据不含GPS信息,无法对通话地点进行精确定位!正是这个缺点让网优人员不用路测的梦想只能“部分”实现。

    大家回忆一下路测和CQT测试的场景,路测的时候通常会在车顶装一个GPS天线,然后通过电缆和计算机相连,用于记录通话过程中所在的经度和纬度,因此一圈路测跑下来的结果,便是能得到一个城市完整的道路的情况。将图10.4按比例尺放大,是不是相当于一张宜昌市的市内交通路线图呢?至于CQT测试,就没有这么智能了,只能是半自动的,在拨打测试的表格里,一般都有“经度和纬度”这一栏,负责拨打测试的人将自己手机上测到的GPS信息填上去即可。

    第10章Chapter 10初识网规网优 - 图13

    图10.6 MR地图

    那么MR在定位上面会出现什么状况?MR只能告诉你这次通话发生在哪块载频,也就是说,MR的定位只能达到小区级的。我们来看看图10.6。

    从图10.6可以看出,MR报告也可以像路测一样做地图,但是地图并不是它的长项。由于没有精确的GPS信息,它只能以基站(或者说小区)为维度来呈现各种数据。虽然图形很难看,但是图10.6中的数据却是我们想要的,话务分布图可以说明一个城市哪些地方话务高,哪些地方话务低;下行质量分布图能说明什么地方通话质量好,什么地方通话质量差;弱覆盖分布图可以说明哪些地方信号电平比较低(从手机上看就是格数比较少)。到这里,大家可能要问,既然MR数据不含GPS信息,那么图10.5中所示“接收距离”是怎么回事?

    其实图10.5中指的是GSM的测量报告,GSM由于是时分系统,所以会对手机发射信号的时间进行一个评估,这个评估BSC会用“TA值(Time Advance,时间提前量)”的方式来告诉手机,这个值非常粗糙,一个bit的精度在550米的范围内,这么大的浮动范围让它实在是没有办法用来进行定位。

    因此,我们通常不会用MR地图来进行问题分析,用得比较多的一般是如图10.7所示的统计柱状图。我们知道,MR测量报告的一个特点是海量数据,想想也难怪,所有载频所有用户的数据你都要记录,这数据不庞大才怪了。数据量大的好处是便于进行统计分析,毕竟样本越多,离事实也就越近。图10.7是对上下行电平、上下行质量、上下行链路平衡等分布情况的一个统计,其实这些信息加上对邻区的测量报告放到一起,就可以衍生出很多各种各样的网优分析。

    第10章Chapter 10初识网规网优 - 图14

    图10.7 MR分析报告

    到这里,网优人可能又会有新的梦想:“假如有一天所有手机都有GPS功能,测量报告都自动上报GPS信息……”。作者认为,这个梦想要实现的难度非常大,修改协议,在测量报告中添加GPS信息或许并不困难。但是现在的通信标准都是国际标准,这样的修改显然会有法律风险,因为无论是谁,恐怕都不希望你一边打电话,运营商一边就能根据GPS信息画出一条精确的你活动的轨迹图!

    10.4 运营商最关注的网络指标——掉话率、接通率、数据业务下载速率

    应当说,反映网络性能的指标是很多的,作者曾经看过一个性能指标的统计表格,密密麻麻的Excel足有十几页之多。其实其中绝大多数指标运营商并不关注,一般他们所重点关注的指标,也即列入KPI考核的指标只有那么几个,掉话率、接通率、数据业务下载速率等。这些关键指标也不是一成不变的,通常会随着网络的建设阶段和自身业务发展战略的不同而有所不同。

    10.4.1 最糟糕的用户体验——掉话

    像掉话率、接通率这几个指标被列入KPI考核是有道理的,掉话可以说是通信过程中最糟糕的一种体验了。你翻开移动或者联通的KPI考核办法,掉话率也一般是被列在第一条。掉话等于说是生生把你的电话进行掐断,不管你是在谈几千万的生意也好,或是什么别的重要的事情也罢,通通一视同仁。我们知道,插话打断人家说话都属于一种不礼貌的行为,何况是掐断(从发现掉话到再次接通得8~10秒)。掉话的原因通常有以下几种。

    (1)弱信号掉话。

    这种掉话通常是受地形和建筑物的影响,最典型的例子就是电梯了。电梯由于处于封闭空间,外面用的又是金属包裹的门,因此对电磁信号的屏蔽特别厉害。大家应该没少见过这样的例子,打着打着电话,一进电梯就不行了,“喂喂喂”几声对方没反应,然后一看,通话的绿色话筒已经显示为红色,掉话了,再一看信号,好家伙,只有一格。为了解决这个问题,运营商也没少在室内覆盖上投入,大家在电梯里应该可以经常看到三家运营商的标识,“G3已覆盖本电梯”、“WO已覆盖本电梯”、“天翼已覆盖本电梯”,为的就是告诉你,俺在你电梯上方已经安装了吸顶天线,放心打电话吧,不要犯上电梯恐惧症。

    除了电梯以外,这种情况还经常在丘陵地区碰到,经常车在山跟前拐过一道弯,有人的电话就掉话了,山体对于电磁信号的阻隔,比起电梯来自然毫不逊色。面对这种场景,通常除了新增基站外没有别的好办法。

    (2)切换掉话。

    这也是现网比较常见的一种掉话,很多情况下都是因为邻区没有配好引起的。邻区一般要成对配置才能不产生这种掉话,就好比交朋友一样,假如你认为别人是你的朋友,而别人不认为你是他的朋友(配置的是单向邻区),那么你的钱委托他保管(切换)通常就只能肉包子打狗有去无回。

    (3)干扰掉话。

    这种情况一般发生在城区,现在城区的基站越来越密,在有限的频率资源的条件下带来的结果势必就是干扰越来越大。干扰一大,信噪比低于解调门限,就容易造成信号解不出来而形成掉话。其实这种类似的生活场景也有,通常发生在超市或者公交车这种非常嘈杂的环境下,你跟朋友在超市里说话(通话),然后旁边买菜的和卖菜的讨价还价的声音太大(干扰太强),虽然你们俩声音也不小,但是还是听不清彼此说话(信号相对噪声不够大,导致信噪比低于解调门限),于是,你们俩只好闭嘴了(掉话)。

    (4)基站故障掉话。

    由于天馈线损坏、进水或者接触不良,或者载频产生故障也容易产生掉话。这也不难理解,载波就相当于人的声带,天馈系统就相当于人的咽喉口腔,这两个地方有故障了,发生掉话很正常。

    10.4.2 你不能老让我找不到人——谈谈接通率

    除了掉话,接通的成功率也是运营商非常关注的问题。打电话能够接通的概率就是接通率,这个概率自然越高越好,低了的话一来用户心情可能变得烦躁,对品牌形象会造成损伤;二来用户一生气这个电话不打了,也会造成经济利益的损失;三者每次呼叫不管接不接得通都会因为信令的流量占用一定空中接口的资源,接通的概率越低,就意味着资源的无效利用越多,算起来相当不划算。总之,接通率降低带来的后果就是用户找不着人的概率增加。一次两次拨打电话传来“您拨打的电话无法接通”或许还可以理解,要是多出现几次,人也难免会有些恼火。毕竟,人家打电话体验的是一种付费服务,你不能老让人家找不着人不是。这种“您拨打的电话无法接通”的原因通常有以下几种。

    (1)位置更新导致无法响应寻呼。

    你在通讯录里找到对方的号码,然后一键拨出去,就等着对方应答了。这个过程很短,潇洒得很,可是网络没这么潇洒。它要做的第一件事情就是找到被叫此时所在的位置,对于这个问题它别无它法,只能进行寻呼。所谓寻呼,就是拉大嗓子漫山遍野地(其实就是在一个LAC区下)呼喊着被叫用户的名字,期望被叫能够回应。当寻呼到来的时候,如果被叫用户恰好在做位置更新(正常位置更新、周期性位置更新),那对不起,被叫用户的手机是没有办法对寻呼消息做出任何响应的。不能响应寻呼,也就意味着此时是不会做出和主叫对接的动作的,那么接通率自然就下去了。做位置更新的时候不能响应寻呼是有其道理的,正在进行位置更新说明其位置有可能发生变化(比如从一个LAC区到另一个LAC区),而寻呼是根据此前的位置信息下发消息的,这两种信息很可能不一致;此外,位置更新的时候手机跟网络有许多信令要交互,没法空下来再去接收寻呼。基于此类考虑,在位置更新的时候就不会去响应寻呼,从而导致接通率下降。

    我们在2.3.2节中描述过,位置更新就好比你外出游玩的时候给家中的老妈汇报你现在的位置,而寻呼就好比寻人启事。当你跟老妈汇报情况(位置更新)的时候,别人喊你(寻呼)自然是没有时间搭理。

    (2)资源紧张无法进行分配。

    空中接口的资源总是有限的,当资源比较紧张,拥塞程度比较高的时候。新的接入网络的申请就很有可能被拒绝或者分配资源失败。这种情况一般发生在话务量比较大的热点小区,热点小区的资源在忙时就像春运的火车票,买不到(申请信道遭拒绝)的几率相对而言比较高。出现了这种情况,常见的解决途径就是对其进行扩容。

    (3)故障造成接通率降低

    这属于老生常谈了,一旦网络里某个区域的设备出了问题,不管是天馈也好,载频也罢,那么自然各方面的性能都会下降,不单单是接通率和掉话率这么简单。

    10.4.3 未雨绸缪,争夺未来制高点——数据业务下载速率

    话音业务的天花板即将到来,数据业务将成为未来的趋势和拉动收入增长的动力已成为运营商的共识。从2005年开始,国内三大运营商都开始进行转型,转型的动作非常一致,都是努力提高非话音业务收入在总收入中的占比,培养用户数据业务和增值业务的习惯,以期在话音的天花板到顶之前完成转身。为此,中国电信和中国移动在口号上都发生了变化,比如中国电信宣称要做综合信息运营商,中国移动把自己的宣传标语从“移动通信专家”改成了“移动信息专家”。

    不过转型喊了这么多年,始终有点“空听楼梯响,不见人下来”的感觉,虽然非话业务的收入比重一直在提高,但是话音业务的地位依然举足轻重。大家从运维考核的KPI就可以看出,掉话率、接通率,还有已经消失的话音寻呼成功率等无一不是话音的关键指标。虽然运营商的核心层已经达成共识,要推动企业进行转型,但是执行层依然很现实,挣钱比转型更重要,谁是我的“粮仓”我就挺谁。大家都在等待,虽然趋势已经非常明朗,但是大家都需要看到那个拐点——数据业务收入超越话音收入。终于,2011年1季度财报发布了,日本两大主流运营商NTT和KDDI数据业务的ARPU值都超过了话音业务的ARPU值(如图10.8所示),预言已久的事终于到来了。

    由于日本是全球3G业务的先驱和风向标,因此可以预见中国乃至全球多数地区数据业务超话音也只是个时间问题。所以在2010年中国移动的考核办法中,数据下载速率已经纳入了经营绩效的KPI。预期在今后三大运营商的考核体系中,这个指标将占有越来越重要的地位。从技术层面而言,这个指标没有太多可讨论的地方,引用NTT和KDDI数据,以及中国移动KPI指标的目的不过是说明数据业务已经成了未来发展的关键制高点。随着智能手机的发展和3G业务的增多,在未来拥有一张优质的数据网络将比拥有一张优质的话音网络来得更为重要!

    第10章Chapter 10初识网规网优 - 图15

    图10.8 2011年1季度NTT和KDDI数据业务APRU超话音

    以时间为轴来看待这些现有的和已经消失的KPI指标,就会发现一些颇值得玩味的东西。最早网络覆盖不全甚至可以说有限,所以关注的都是寻呼成功率、无线系统接通率等指标,追求的是能让客户打电话,至于效果如何,那再说;后来覆盖不再是主要矛盾,随着用户的发展,话务量激增,容量和通话感知开始变得日渐重要,因此拥塞率、掉话率开始备受关注;到后来运营商开始转型,开始重视并大力推广数据业务,数据业务的下载速率又纳入了KPI体系。我们从中也可以看出,KPI指标随着网络的不断发展也在不断地刷新,但是掉话率和接通率依然屹立不倒,成为衡量一个网络优劣的重要指标。

    10.5 常见的几个网络问题——单通、串音、乒乓重选

    在本节中需要阐述的是几个常见的网络问题,这几种问题不太常见或者不太容易被注意,但是一旦遇到了会觉得这些现象很诡异,让人很有兴趣一探究竟。这也就是单通(只有一方能听到声音)、串音(听到其他正在通话的人的声音)和乒乓重选(手机信号一会突然没有了,很短的时间又突然有了,格数也随之不断变化)。我们首先来看看单通。

    王菲有一首很有名的歌,叫做《笑忘书》或者说《给自己的情书》。可是除非情非得已,没人愿意自己给自己写情书;同样除非被运营商搭错线,也没有人愿意自己给自己打电话。但是大家或许都有过这样的体验,拨打电话的时候,好不容易通了,我们开始“喂喂喂”,但是话筒里传来的都是自己的声音,对方的声音根本听不到,这种打电话只能听到自己声音的情况有一种专业的名词术语,这个词很形象,叫做“单通”。“单通”除了这种情况以外还有一种常见的场景,那就是你能很清楚地听清楚对方在说什么,但是对方没有办法听到你在说什么,这也叫做单通。

    我们在图10.9和图10.10中分别描述了单通的两种情况,其中图10.9演示的是某段线路被环回了,这个环回既可能是硬件层面的也可能是软件层面的,那么张三就成了既是发送方又成了接收方,那么自然出现了自己听到自己声音的状况。而图10.10中,李四的下行链路质量不错,他能清晰地听到张三在说什么,但是他的上行链路干扰很严重,质量不行,所以他说的话张三根本听不清楚。

    第10章Chapter 10初识网规网优 - 图16

    图10.9 单通现象1

    第10章Chapter 10初识网规网优 - 图17

    图10.10 单通现象2

    串音的基本原理和单通差不多,基本的原因就是搭错线,不管是软件层面的还是硬件层面的。比如MSC分配链路的时候将尚未释放的链路分配了出来,那么就有可能造成串音。

    所谓乒乓重选,指的是某个区域内有N个信号强度差不多大小的小区覆盖,手机会不断去选择信号最强的小区,由于这些小区的信号在不断变化,所以导致手机在这些小区里来回地切来切去,就像打乒乓球一样。反映在手机上大家就会看到手机的信号突然消失了,然后马上又变回若干格数,这是因为手机在重选选择小区。比较好的解决办法就是对这些小区的覆盖做一下调整,不要出现一个区域有太多小区信号强度相同的情况,要有一个主导小区,信号强度明显强于其他小区。另外,通过参数调整改变门限也能部分解决这个问题。

    本章的内容就介绍到这里,在本章中,我们介绍了DT测试、CQT测试、MR分析等基本的网优分析手段,了解了决定一个基站覆盖范围和效果的相关因素,阐述了运营商关注的重要KPI指标和网络常见的一些有意思的问题。本章的主要目的是希望大家能对网规网优有一个初步的概念,随着网络覆盖的完善,网规网优的作用会越发凸显出来,在运营商里也会有越来越多的话语权。所以无论作为运营商的前端工作人员也好,还是设备商的非网规网优人员也罢,都应当适当地了解点网规网优知识,在交流沟通和工作的衔接方面,才会更加得心应手。