走进华为
学习华为管理经验

华为EDC切换背后的故事

华为考察

一场跨城的数据接力

2016年10月15日零点。

此时,城市已褪去喧嚣,许多人已沉浸梦乡。静谧的秋夜下,一场EDC(Enterprise Data Center)的数据跨城接力,在深圳坂田和50公里外的东莞之间拉开了帷幕。

短短2小时46分,华为主业务系统的海量数据如同这流淌的夜色,静水潜流,从深圳全部成功切换到东莞。作为华为关键业务IT系统的载体, 已连续运行14年的深圳EDC完成了她光荣而神圣的使命,东莞松湖EDC接过支撑华为业务发展的大旗,肩负着公司云化、数字化转型的新使命,迎着太阳,奔跑向前……

 

云化新布局

2002年,承载着春天的希望与梦想,深圳EDC在寒冬中拔地而起,成为“华为的心脏”。它实现了华为发展初期分散的IT资源集中整合,是华为信息时代第一代企业数据中心。7*24小时follow the sun,它支撑着华为的业务从国内遍布全球,服务170个国家与地区的17万多华为人。305

“随着公司全球业务量越来越大,保障全球业务连续性运作,成为了IT运维最首要的责任。”EDC切换执行总指挥刘明荣回忆当年一脸凝重,“业务不中断的要求越来越高,深圳EDC的局限性也愈加明显,出现供电密度低、运维检修难等问题……”

十年来业务快速增长,深圳EDC供电利用率接近饱和,存储已达80%,系统性能逐渐变慢。EDC采用的是双路配电设计,每次EDC机房大型运维与变更时都要承受两次6小时单路停电的风险,涉及大量的沟通和协调。另外,深圳EDC开始进入后生命周期(EDC生命周期通常为12-15年),供电、制冷、消防等基础设施进入耗损失效期,运作风险增大。

“我们必须马上进行EDC更新换代及双活中心规划,保障公司业务不中断运行与未来数字化转型。”时任IT系统运行支撑部部长的郭建新指定IT运维专家着手深入分析深圳EDC面临的困境,并向信息技术工程部部长苏立清汇报,苏立清组织成立了EDC架构规划工作组,以架构驱动EDC双活中心规划,并筹备EDC的立项新建。

2013年1月,基于未来的云化、数字化趋势,工作组提出了从“一主(深圳主数据中心)一备(南京异地容灾中心)”向“两地(新EDC所在地、南京)三中心(新EDC、同城双活中心、异地容灾中心)”架构方向演进的思路,给出了新建EDC或腾挪生产中心加改造C区这两套EDC规划方案。2013年3月8日,第二代EDC规划及选址通过EMT汇报,明确新建EDC,选址定在美丽的东莞松山湖畔,以“两地三中心”布局,支撑华为未来10-15年发展目标。

 

突破迎新生

华为第二代EDC要建成什么样?如何继承优势、突破局限?设计团队集结曹耀兵、张鹏、喻茂萍等IT专家,全面分析目前深圳EDC的痛点,与专业的数据中心设计公司反复讨论、验证各方案的优劣性,抓住EDC最核心本质——安全可靠、绿色高效进行设计。

作为企业主数据中心,首要任务就是解决深圳EDC原供电架构局限,并结合云计算分布式技术进行前瞻性规划。他们研究业界最新设计理念,前往国内外知名大型数据中心参观交流,吸收先进经验,谨慎验证。最终决定采用全球最新的模块化及容错设计,可实现连续供电、制冷,在线维护、升级与切换。同时,可根据业务增长进行弹性敏捷配置、随时启用,灵活交付,降低一次性投资成本。

东莞地处华南,常年气候湿热,如何使机房温度保持在25度左右并尽可能绿色节能?几经讨论后,设计团队决定采用自研高效模块化UPS(不间断电源)、高效中温变频冷水机组、隔离热通道、太阳能照明等节能技术,实现年平均PUE(Power Usage Effectiveness)1.47,达到业界相同环境下最佳水平。

松湖EDC共12个服务器机房模块,3000个机柜,是深圳EDC规模的8倍。升级后的EDC可用性、可靠性全面提升,采用的IT技术可适时更新换代,大大提升应用性能。

历时8个月,无数轮修改之后,全新的设计方案终于出炉,接下来便是三年磨一剑的EDC建设。从奠基、施工到交付,建设团队全过程引入业界一流的专业施工、第三方测试验证,同时专业的设施运维服务提前介入,以保证高质量的交付。

2016年7月,骄阳似火。松湖EDC大楼下,叶立强、黄晓春等建设团队成员正与基建、行政、供应商、设施代维团队进行上业务前的综合联调。他们认真地实施着一个个联调工序,检查EDC供电、供冷、通风、消防、油泵、水塔等系统设施的运行状况。时间一分一秒过去,大家脸上早已汗如雨下,衣服已湿透。联调持续了20小时,对于他们来说,作为松湖EDC的质量看护者,为EDC切换提供最可靠的质量保障,责任重大。

三年来,1000多个日夜,他们长期驻守在松湖EDC工地,完成了上千次各场景用例验证测试,包括核心关键机电设施的厂验、测试,修复排除了千余项的系统风险与隐患,见证着松湖EDC从无到有,崛起诞生。

与此同时,第二代EDC IT技术架构升级预研的专家们,也向IT管理团队交上了一份自信的答卷。全栈式架构设计、不同集群双活、存储阵列、面向云化的网络架构、全万兆接入……一个个经反复验证的技术方案,为松湖EDC实现IT应用零故障、业务无感知切换及未来云化、数字化奠定下坚实的基础,将更好地支撑公司未来业务发展。306

联合大作战

2016年8月,松湖EDC正式具备上线条件,公司决策:EDC切换定在2016年10月15日。

动员会上,IT系统运行支撑部部长黄潮海说:“公司给了我们这个任务,就是相信我们的专业能力。这一块硬骨头,无论如何,也要把它啃下来!”他与刘明荣立马布署作战计划,200多个产品,700多个应用,上万个集成点,4万多个验证用例,数万条防火墙策略,需要联动公司各业务领域及系统、网络、应用、机房、安全等多个专业领域,可谓是华为IT历史上跨度最大的“联合作战团”。

保障切换成功不仅仅需要技术,更需要严密的组织、流程和科学管理。联合作战最难的就是“协同”。作为项目整体进度把控者,总体组的姜汉斌和系统技术组的苏燕强放出了他们的大招——“每天一晨会,每周一简报,每月一总结”。严格按项目要求协调资源,推动各项任务保质保量按进度输出。组织团队对齐目标、沟通进展和存在问题,讨论技术方案和实施细节。而对于系统方案、操作步骤、数据切换命令,都要形成正式的文档,关键的操作指令,进行相互检验、同行评审。据不完全统计,切换涉及过程文档合计500多个,系统方案200多个, Checklist达上万页。

“我们的目标是全球业务连续运行,无数据丢失,无重大故障!”

宣誓传递着必胜的信心,承诺代表着当责的勇气。职业生涯中能参与这场数十年一遇的IT历史性事件,每个人心中都洋溢着一份荣耀与自豪。

 

6轮大演练

为了使环境问题充分暴露,验证队林相如、王宇等规划了4轮的全量测试、2轮性能测试,测试用例高达几十万。短短两个月,6轮模拟切换演练紧锣密鼓地开始了。

如预想的,问题一点都不会少。第一轮演练后检出缺陷数百个。“我们的原则是:不留任何问题到下一轮!”系统团队负责人吴家汉看着缺陷清单,坚定地说。

“兄弟们,来打怪兽吧!集结百个就可以召唤神龙啦!”系统团队这帮年轻人,把解决几百个缺陷当成闯关打怪兽,笑嘻嘻的欢乐氛围中,缺陷一一被消灭闭环。

一轮轮演练,跨团队协同愈加紧密默契,战友情谊迅速升温。在实施复制链路时,系统团队遇到带宽瓶颈,网络团队迅速响应,加班加点在5天内扩容50G带宽;验证团队因时间短任务重、无法按常规流程完成拉通测试时,系统团队通过技术攻关调整方案,验证团队优化测试流程,极致利用各方时间,任务最终如期交付;网络团队发现海外运营商个别连接异常,验证团队帮忙测试,系统组排查硬件问题,很快找到问题症结……

就这样,在大家的良好协作下,问题缺陷逐轮下降,到第5轮只有几十个。正当大家感受到光明在前时,又出问题了:第6轮演练后,系统团队发现:少量系统出现了数据丢失!

零数据丢失是切换最基本、最重要的目标。这样的事件,如出现在正式切换中,不仅意味着切换失败,而且会给业务带来严重影响。经系统团队与软件供应商联合会诊,最终定位是演练触发了软件BUG。要解决问题,要么利用检查工具,对问题数据库选择性覆盖;要么全部覆盖。经仔细讨论,IT运维专家一致认为主业务系统数据量庞大,检查工具可能无法完全准确定位数据坏块位置,存在一定风险。而全部覆盖则意味着要多2周时间,后续切换压力更大。IT管理团队果断决策:“全部重新覆盖,即使风险是十万分之一,也不能让业务数据出现一丝问题!”

而此时,传来了任总对EDC项目组的鼓励:“沉着镇静,临危不乱,不要背上沉重的包袱,放松才能胜利!”大家倍受鼓舞,一鼓作气,利用国庆期间快马加鞭。牟旭涛带领网络团队再次紧急扩容带宽,各个团队通力协作,最后大家仅以一周时间便完成了全部数据覆盖,经数据比对核实,与生产环境完全一致。

在这紧张又带着一些期盼中,华为EDC切换大战的冲锋号角吹响了……

 

2小时46分的接力

10月14日晚,深圳EDC灯火通明,切换总指挥中心的智真屏幕协同全球12个作战现场,参战人员蓄势待发,各大BG、财经、供应链、研发、基建、行政等业务代表各就各位,一场海量数据切换之战即将打响。307

随着总指挥刘明荣一声令下:迁移切换开始!一条条指令通过作战平台,有条不紊地下发给各参战小组,所有参战人员屏声凝气,沉着冷静地执行着各自的任务,手指在键盘演奏成一曲曲美妙的旋律。

“停机环节风险报警!原计划15分钟,现已运行 20分钟……”“目前还有充足时间,请大家按照原计划进行。应急方案做好预备!”第29分钟,所有应用在时间窗内顺利停机,“Yeah!”各作战场回应着首战胜利的欢呼。

作战室内显示屏上,实时、动态显示着各业务系统切换进度,5%,10%,20%到70%……,“22分钟,iCare系统切换完成!”支撑运营商的服务后盾iCare跑出了最快的成绩,也带给大家信心。紧接着,一个个系统逐步变成切换成功的绿色,最终,当所有业务系统进展显示全部变成绿色,迁移比预期提前了1个小时14分结束,时间定格在2016年10月15日凌晨2点46分。308

数据迁移后,切换大战的第二棒,交给了验证团队。为验证迁移数据没问题,避免对业务造成影响,团队必须在早上8点前完成所有应用的验证。这是一次与时间的赛跑,一个个验证问题出现又被闭环。“认证数据异常,问题可能带来业务数据的高风险!”数据库专家宋财生立即组织大家分析根因,有条不紊地按照应急预案处理,风险终究化为无形。凌晨6点,切换结束了所有作战任务。

经检测,升级换代后的松湖EDC关键系统存储响应性能提升了67%, 89%的应用得到不同程度的性能提升。

清晨,当第一缕阳光透过云彩照耀大地,世界正在醒来。当质量与流程IT总裁陶景文宣布“EDC切换成功”时,忙碌了通宵的全体参战人员终于卸下身心的疲惫,长久而热烈的掌声响彻12个战场。在这成功的喜悦里,美丽的松山湖畔,东莞松湖EDC已载梦启程。此时,远在云贵高原的华为云数据中心贵州CDC(云计算数据中心)也开启了建设历程,华为全面云化的分布式数据中心群蓝图正在一步步变成实景…

参观华为

赞(1)
未经允许不得转载:参观华为 » 华为EDC切换背后的故事

参观华为

学习华为的文化与管理

联系我们联系我们