走进华为
学习华为管理经验

华为那段从泥坑中爬起来的经历

华为考察390

“华为根本不懂新一代电信网络!”客户的批评劈头盖脸而来。

2001年,当我们以令人震惊的速度,拿出新一代综合交换机iNET时,迎接我们的不是鲜花与掌声,而是血淋淋的现实——中国电信客户根本不允许我们的产品入网!

这意味着,我们被客户彻底抛弃了!这一惨败几乎断送了核心网。C&C08机曾经带来的荣耀与辉煌,也瞬间灰飞烟灭。我们凭什么重新开始?又如何奋起直追?

跌进了深深的泥坑

失败的原因,和我们此前做的一个选择有关。2000年,受互联网和IP业务的影响,下一代电信网络的发展出现了两种演进策略:ATM(基于电信的实时高可靠性传输技术)和IP(基于互联网的简单传输技术)。

我们的团队由于C&C08机128模块的巨大成功和惯性思维模式,坚持认为基于ATM的综合交换机才是客户真正需要的,而基于IP的软交换只是IT厂商的玩具而已。我们不仅没有及时听取客户的需求,还积极反对软交换的演进方案,甚至在与客户面对面交流时,对客户的决策进行抨击,导致客户对我们的解决方案彻底失望,后续很多客户在试验工程选型中摒弃了华为iNet。

由于偏离客户需求、盲目自信、以自我为中心,我们的产品败走麦城,两年多来几百人的巨额投入打了水漂,核心网跌进了深深的泥坑,研发团队面临被解散的局面。

那时的我还是一个刚进公司5个月的新员工,怎么也没想到,自己加入华为开发的第一个产品,就马上要被终止生命。我非常沮丧,觉得前途一片灰暗,不知道还能不能继续在华为干下去……

就在我彷徨绝望时,突然听到了一个“绝处逢生”的消息——公司没有放弃我们,决定及时调整战略方向,选择IP技术,重做平台!这个消息就像一丝曙光,照亮了落入漆黑悬崖下的我们。

我们从解散的边缘被重新组建起来,成为新的软交换平台团队。“败军之师”要想正名,唯有胜利。

新的平台选择了新的硬件架构,全面基于IP,一切都要从头开始。我们必须在不到一年的时间,完成从操作系统、数据库到通信机制等基础功能的构建。产品经理开计划会时,不止一次地问我们:“你们能不能按时交付?”我们的平台项目经理李华斌拍桌而起:“保证不拖产品后腿!”

我当时承担的是OS部分。那是我第一次接触OS,看到几百页犹如砖头厚的全英文手册,整个人都懵了。记得那年春节放假,我在家里天天捧着手册在看,玩命的用功引来父母的担心:“是不是因为感情上受了什么打击了?”重压之下,我取得了飞速成长,仅仅一个半月后,我就成为了项目组“死机问题专家”。

而项目经理李华斌不仅承担了最复杂、最具挑战性的IP通信模块开发,主导平台和产品的联调,还要作为救火队员四处奔忙,哪里有问题,就扑到哪里……等到我们终于成功打通第一个电话时,他却病倒了。别人问他干嘛要这么拼命,他说,就是想着不能让平台在我们手里做没了。

2003年,软交换平台渐渐成型,构建了众多基础架构和技术:支持百万级的大容量分布式技术、99.999%电信级高可靠架构、全IP交换……这些亮眼的特性,让我们的产品在关键技术和性能竞争力上,大幅超越了友商。

重新回到“以客户为中心”道路上的我们,因为得到了中国电信的认可和宽容,才在中国的土地上,重新站起来。偏离客户需求所付出的惨痛代价,让我们深刻认识到,解决方案竞争力的构建,必须围绕客户诉求,只有真正解决客户关心的问题,我们的产品才有可能获得成功。
391

卫星被攻击?

随着第一代平台上网,我成为了平台的维护经理。可由于缺乏平台问题定位手段和远程化支持能力,我们闹过不少笑话。

2005年,马达加斯加G运营商反映,使用我们的设备时,他们的网络经常出现电话语音质量变差或无声的情况。马达加斯加使用卫星做中继传输,承载的可都是高价值的旅游客户,运营商非常担心:信号质量这么差,我们的客户流失了怎么办?华为快想办法啊!

我们反复进行模拟实验,但都没能重现问题。一开始我怀疑是卫星信号不好,或者由于天气干扰、地磁暴动等原因,导致卫星链路出现频繁闪断。但通过消息跟踪,发现并非如此,而且从消息跟踪的轨迹来看,都是消息成功发送出去后,在卫星链路中无故消失,对端也没有收到任何信息。

这究竟是怎么回事?难道是卫星遭遇太空小碎片攻击,导致传输异常?我们自觉脑洞开得很大,但也不能排除这个可能,于是硬着头皮跟客户交流:“能不能确认下卫星有没问题?”客户满脸疑惑:“如果是卫星遭遇攻击,怎么可能只造成通信故障?只有消息跟踪轨迹,证明不了什么,你们能采用第三方工具,给出更有说服力的证据吗?”

我们只好派信令专家老黄去现场,通过信令仪去抓数据包来分析。结果老黄虽然技术很牛,但普通话不太标准,穿着又很随意。第一次出国就在海关被拦下了,到最后飞机都起飞了,他还没有换到登记牌。后续经过反复沟通,他才改签了机票,2天后赶到现场。这期间我们真是等得心急如焚,更加坚定了要拼命提升远程消息跟踪能力的决心。

几天之后,定位有了进展,终于找到了问题根源——就是因为连接我们软交换系统的卫星链路消息传输时间很长,有时会超出代码中预设的发送超时时长,导致一些数据出现冲突。

找到原因解决了问题,客户和我们都松了一口气。想起我当初竟然会怀疑“卫星被攻击”,不免有些好笑,还好这“黑锅”最后没让它背。

如今,虽然我们的局点分布越来越广,但随着平台问题定位手段越来越丰富,很少再有这种飞半个地球赶往现场攻关的场景了,当然也不会再闹“卫星被攻击”这种大乌龙了。

 

太阳黑子引发的悬案

2006年,西藏地区S客户反馈,我们的设备发生了一次单板死机重启问题。还没分析出原因时,一个月内又连续发生了两起类似事件,客户开始质疑华为:你们的产品到底行不行啊?

问题进一步升级,我们成立了软硬件联合工作组,封闭攻关。大家一起分析日志、走读代码、查看单板器件,经过一次又一次的分析和推演,发现是数据bit跳变(二进制位0变成1,1变成0)引起的。但是,为什么会跳变呢?究竟是软件问题,还是硬件问题?大家全都摸不着头脑。

在不到十平米的临时会议室中,软硬件各领域专家一起冥思苦想。由于各种线索都被验证不可能,大家有些沮丧,气氛很沉闷。碰头会快结束时,负责设备管理的同事自言自语道:“不会西藏太高了,有高原反应了吧?”

“啊,真的可能啊!”我们的硬件专家阿杜突然眼睛发亮,“也许西藏辐射大,比如太阳黑子引发的射线,导致内存和cache的数据发生跳变!”

之前怀疑“卫星被攻击”,现在又怀疑“太阳黑子惹得祸”,这次的猜测会是真的吗?

被点燃的火花迅速蔓延到每个人身上。我们马上去查询太阳黑子的活动曲线,以及辐射导致芯片失效的案例,竟然真的找到了相关的证据!我们还对西藏地区近年日照时数做了研究,发现单板死机问题出现的时候,西藏地区太阳黑子活动明显较往年活跃。

太阳黑子?这怎么可能?客户一脸不信任。我们一向大胆假设,小心求证。于是,在1000公里之外的西安国家核物理实验室里,平台专项攻关组立刻进行辐射专项试验,模拟高能粒子轰击,很快重现了数据跳变问题。

“找到原因了!”在一线测试的兄弟兴奋地挥舞着测试报告,“我们还要把测试时间放长一些,把规律找出来。”

根因找到了,但如何解决?最好的办法当然是更换硬件,选择抗“太阳黑子”能力更强的涂层,但动作太大了,客户不愿意。于是,我们通过增加内存,采取cache自动定期巡检、回写纠错等方案改进,终于解决了单板死机问题。

后来,我们又突破多项技术专利,实现在错综复杂的系统中,精确定位被“太阳黑子”影响的位置,并迅速修复。

欣喜之余,大家相互调侃,通信工程师不仅要知道通信知识,还得上知天文、下知地理啊!

 

从20分钟到40秒

第一代软交换平台的成功让我们占据了市场领先的位置,但通信行业的发展是爆炸式的。2007年,友商计划推出刀片架构的新平台。当时,还在维护部的我接到了主管的电话:“回来开发第二代平台吧!”

我对亲手做出来的第一代平台充满感情,因而没有犹豫,就投身到新平台的开发中去。

首先面临的是软件架构的选择。产品架构师力挺旧架构:“把第一代平台直接搬到新的硬件上来,这样工作量最小,能最快推出,而且稳定性好。”但平台架构师坚持采用新平台:“如果我们不采用新的平台,无法与友商拉开竞争差距。”

两方争论不休,我自己心里也很矛盾,我觉得在技术上我们应该选择新架构,但在交付上旧架构更安全。最终,经过多次产品线专家的集体评审决定:决定向前看,用新的架构,确保核心网产品后续5年的领先优势,并向未来持续演进。

然而知易行难。我们的平台和产品联调时,出现了大量问题:第一次用Linux操作系统替换自研操作系统,可Linux包有1G多,安装1个单板需要4~5小时,难度很大,插拔网卡需要重启,无法满足电信即插即用要求;引入Oracle数据库替换自研数据库,可升级倒换时长,不可控;新的操作维护架构,问题定位需要的日志量很大,第一个实验局开局时,问题定位需要开车用硬盘送日志……

内部交付验收后,服务兄弟洋洋洒洒地写了几十页PPT,指出平台近100个问题,投诉到产品线。那段时间,每天内部测试涌现出100多个问题,还有超过100万行的工作量待开发。我们就像泥足巨人,完全动弹不得。

“架构做错了,用第一代平台架构,早就好了。”我们被巨大的质疑声淹没。那时作为平台部长的李华斌顶住压力,到产品线推动业务决策,给我们的需求减负,重新调整范围和计划,这也是产品线第一次与研发部和各产品深入沟通,逐步让大家理解和支持我们。

背负着产品线的期望和市场的压力,我们背水一战,对硬骨头进行系统梳理。首先拿Linux操作系统开刀,系统加载在电信系统中需要20分钟,根本让人无法接受,我们想到让系统“瘦身”。但一轮下来,并没有达到预期,还要10分钟!

“不行,最多只能40秒,没得商量!”我想,如果赶不上老架构,市场根本不会接受。于是我们继续攻关,预加载、固化……又缩短了一半时间,达到了5分钟。再往下就更艰难了,我们不停想方案验证、找专家讨论,十八班武艺能上的都上,1秒钟1秒钟地抠。

最终,我们实现了操作系统40秒完成在线加载,并同时提供内核黑匣子、支持热插拔、高精度定时器等多个电信级特性,成功打造了第一个公司级的电信Linux操作系统。之后,我们还针对数据库Oracle,联合厂商一起解决升级效率以及各种小概率出现的死机,终于按时通过技术评审。

一次次跌倒后再爬起来的“挣扎”,面对起起伏伏的质疑声,经历几百个日日夜夜、几百个平台兄弟姐妹的拼搏……第二代平台以其先进的技术架构,奠定了核心网产品技术竞争力的基础,服务于全球超过30亿用户。392

永远在线的秘密

2009年,我们拿下一个个山头项目时,某领先运营商C发了一个标书,其中一条可靠性要求,让我们无比震惊:升级无损,升级业务不能中断,不能影响已接续通话!

不可能!这是我们的第一反应。手机、电脑升级一个版本,都要重启,所有软件都要关闭,要好几分钟。现在运营商的要求就像电脑一边升级,一边还要继续播放电影。这怎么做得到?

作为设计部部长的我,感受到排山倒海的压力。我召集各方面专家成立了专门的无损升级攻关团队。

大家首先想到的方案,是使用双平面的方式升级,就是将系统划分两个平面,新旧两个软件版本同时跑,而不是一次性全局复位,节约中断时间。新旧版本切换仅仅需要一个指令,这样一来,业务中断只出现在切换这一瞬间,10秒以内。按这个方案,在现网运行的老版本不能动,必须在新版本做文章。通信隔离,HA分区,OM支持……我们想办法实现了两个平面同时运行,相互不干扰。

但如何让已经接通的电话不中断?唯一的方法是将呼叫数据备份到新版本中。但每个版本的数据结构都在发生变化,在数以千计、万计的数据结构中,1个字节的差错,都可以导致难以挽回的错误。怎么办?人工比对?大家一筹莫展。

此时,平台专家老林提议,能否通过编译器的技术原理来进行解析和对比分析?对啊,真的可以!我突然想到,以前定位问题时经常要用到相同原理,我们马上找来编译器原理书籍来分析,并最终实现了自动对比方案。

2009年底,我们在实验室完成了无损升级的关键原型。系统升级,所有呼叫不断话,新业务中断在5秒以内。2010年4月7日,我们正式和客户签署商用合同,实现在北美的第一次突破。

393

我们要革自己的命吗?

2011年,我成为核心网平台首席架构师。当时IT行业云计算已经兴起,我们敏锐地意识到这对电信CT也会产生革命性的影响。但公司内部也有不同声音:第二代平台竞争力仍遥遥领先,再开启新一代云化平台不仅需要大量投入,还面临失败的风险,我们真的要革自己的命吗?

在这充满迷雾的岔路口,我深感责任重大。我们的下一跳在哪里?要用什么样的架构?

在这种情况下,一方面,我们瞄准KVM、OpenStack等化云化关键技术进行研究,另一方面,就云化积极和公司、客户去探索论证。

2012年初,我们派出了一批专家,远赴公司瑞典研究所,进行平台云化架构技术研究。2012年5月,我们与V运营商首次就云化进行沟通,我们的概念和架构得到客户的认可,他们当场表示,希望和我们做联合创新。2012年10月,欧洲相关标准组织喊出了NFV(网络功能虚拟化),这与我们的云化构想不谋而和。

我们调整方向,将技术研究版本转为正式的版本开发。然而,未知的难题更多了,架构先进性、成本、性能、可维护性等,每一个主题都要反复论证:是否是业界趋势?成本可控吗?运维可操作吗?

我经常整夜无眠,有时睡到三更半夜,突然想到一个好的点子,就赶紧爬起来写。就这样,与行业专家、产品架构师进行30多次的讨论后,我们最终采取了最彻底的分层云化方案,完成I/P层分离架构、自动化部署等一系列关键方案和架构的突破。

2013年3月,我们和V运营商一起,完成了世界第一个云化PoC(概念验证),2014年10月,全世界第一个基于NFV架构商用。之后,我们连续突破了北美、德国、中东等全世界多个顶级运营商。在新的时代,我们又站上行业之巅。

394

回望过去十多年,特别感激公司的宽容,让我们有机会在试错中成长,哪怕被摔得鼻青脸肿,骨子里的血性依旧,还能重新爬起来战斗,反败为胜。对我个人而言,能为核心网平台的发展出一份力,是我一生的光荣与梦想。

参观华为

赞(1)
未经允许不得转载:参观华为 » 华为那段从泥坑中爬起来的经历

参观华为

学习华为的文化与管理

联系我们联系我们