华为的实验室客户为什么点名要去看?

华为参观考察64

在深圳坂田基地E1二楼,有一间实验室,不到400平方米的空间内,大大小小的仪器设备鳞次栉比。这个看似普通的实验室,每年接待无数的各国政要和重要客户,甚至有人点名要来参观。这就是华为的热实验室。

我一毕业就成为了华为的一名热设计工程师,在这个实验室度过了16个春秋,见证了它的每一个进步和成长,可以说是看着这个实验室长大的。

你也许要问,热设计是干什么的?简单地说,我们散热团队主要解答:如何把通信设备产生的热散出去?幸运的是,我们煮一杯“咖啡”吸收宇宙“热”量,持续提升散热能力,在助力华为产品飞向全球的同时,不断满足着客户对网络快速发展的需求。

第一次喝上“热”咖啡

热了就降温啊,比如说用风扇吹,并不难。这是我们听到“降温”这个词的第一个反应。但其实给设备降温一直是一个业界难题,更不用说芯片降温了。通信设备的热设计(降温),和医生给发烧的人体降温一样,永远是一个挑战。

2005年,热设计团队就遇到了一个“拦路虎”。

当时,运营商客户彩信业务井喷,需要华为开发一款集成4个CPU的服务器来支撑多媒体数据处理。CPU来自A公司,采用了当时最新的45nm(纳米)工艺。开发和测试验证一切正常,却卡在了极限高温加单风扇失效的散热环节。CPU过热宕机了。

解决不了散热问题,产品就无法投入市场。每延误一天,就要消耗20万元的开发费用。我们连续几周紧急攻关,可试了各种散热方案,却始终找不到原因。

我们急得团团转,无奈之下只能求助原厂家。A公司派了美国资深散热专家Chad紧急支援。Chad也是第一次遇到这样的问题,但他比我们更清楚45nm工艺芯片的内部发热机理。连续一周,Chad带着我们跟踪测量风扇坏后芯片的温度和功率变化,一次次的测试后,逐步定位出原因。我们原先认为CPU功耗是较为稳定的,但实际上,芯片到45nm后功耗会和温度相关,温度越高,功耗越大,如滚雪球一般,极端情况下会出现功耗雪崩现象。

这是我们和业界专家第一次并肩作战。美国专家的这杯“热”咖啡,让“井底之蛙”的我们第一次深刻意识到,从前我们只关注热本身,并未关注不断演进的芯片如何发热,没有看到芯片的特性与散热是强相关的,对业界的研究也一无所知。换句话说,我们只关注了鸡生蛋,却不关注鸡是怎么生蛋的。

而散热,并不是“拿来主义”就能解决问题,我们必须主动走出去看世界。

西行寻“咖啡”

2007年开始,领导将当时仅有的3名从事热设计5年以上的“老”员工,老池、老许和我全派了出去,要我们到欧美日等地区寻找技术人才、领域专家。

我们疯狂地在网上搜集专家资料,找朋友推荐,积极参加国际知名的热会议,厚着脸皮给专家们递名片,邀请专家来华为交流。

邀请了很多位,来交流的只有五六个。打不开局面,我们不得不改变策略:凤凰请不来,我们就到凤凰巢里去!我们索性在专家资源最丰富的地方,就地找人才、建团队。

华为S国研究所的系统专家老马,在2006年的一次国际Therminic会议上看到一张亚洲面孔,对方精彩的发言给他留下深刻印象。老马以为遇到同胞,中场休息时激动地上前用中文打招呼,对方一脸茫然。细聊才知对方叫Vadim(我们后来都叫他老瓦),是来自俄罗斯的亚裔,任职S国某著名通信公司多年的资深散热专家。

老马尝试给老瓦打了一个电话。没想到老瓦正准备离职去顾问公司工作,老马按捺住内心的激动,抓住机会和老瓦约定“咖啡时间”相互交流。一来二去,老瓦对华为的了解渐深,终于答应来华为做顾问。

专家请来了,我们围绕专家学方法建能力,在S国成立热能力中心,我和几位同事被派去作其助手,负责最具挑战的基础研究。

2008年,海外运营商客户对4G商用的需求迫切,无线产品线找到我们,希望我们设计一款新的换热器,在不改变机柜大小、不增加机柜数量的前提下,提升设备的散热能力。换言之,客户希望不增加站址租赁和机柜成本,又能让设备“跑”得更快。

老瓦提出了“塑料换热器”方案,以塑料替代原来金属材质的散热设备。塑料是一把“双刃剑”,其可加工性更好,可以在相同体积内加工出更多的换热面积,但如果设计不当,它也会阻碍空气流通,导致热无法散出去。2006年开始,我们曾和松下合作尝试过这一方向,但样品做出来后,装到我们的设备上反而“跑”得更慢了。老瓦判断,是我们和松下之间在关键设计参数上没有适配,他非常有信心能取得突破。

凭借在此领域积累的资源,善于沟通的老瓦带领项目成员和松下开始深度的对接。尽管和松下之前有过合作,但亲密接触还是头一次。来自瑞典、日本和中国的工程师一起协同努力,将设计参数完全对接,迭代测试优化,历时3个月,最终实现了老瓦提出的研究方向。当年,设备也因此获得超亿元的采购。

专家的能力决定技术的深度,人脉决定资源的广度,而开放坦诚的合作决定了项目的成功。从2007年到2010年,我们不仅在全球找到最优秀的专家,围绕他们构建了一流的热设计团队,逐步在欧洲、美国、日本建立起热能力中心,做大技术的喇叭口。

“咖啡”沙龙:我搭台来你唱戏

业界通常有一个说法,“一千篇论文才有一篇能转换为工程应用。”走出国门与越来越多的专家学者交流时,我们发现,很多学术成果并不能产品化。

而国际会议学术议题多,讨论分散,我和老瓦讨论,华为作为一家ICT公司,可否搭建一个让工业界和学术界对话的平台,让工业界包括友商在内发出更多的声音,更聚焦、更务实地讨论我们面临的挑战?

这就是华为CTW(Cooling Technology Workshop)的雏形。

2009年10月,我们在瑞典召开第一届CTW,满怀期望地发出200多张英雄帖,回复参加的仅有十几人,其中几个还是我们的供应商。

第一次会议就这样搞“砸”了。次年我们调整思路,决定借势出击,借助技术大牛或权威机构的影响力在业内打出知名度。当时我们已加入美国普渡大学组织的企业联合热技术研究组织CTRC,Intel、IBM等公司均为成员单位。在华为美研专家叶连土的推动下,第二届CTW成功由普渡大学CTRC主办,华为协办。

有了权威机构的强大号召力,前来交流的专家翻了三倍,会议连续两天从早8点开到晚7点,大家收获满满。会后,几名教授联手将研讨会议纪要写成产学联合分析的技术需求趋势论文,公开发表在权威IEEE刊物上。这一场热技术“咖啡”沙龙,可以说第一次让学术界和工业界专家看到了华为在技术上的开放、专业和投入。

我们也快速建立起专家资源库,及时了解业界技术趋势和动态,遇到难题时直接能找到最权威的学者交流。一次,严谨的客户进行质量检查时发现,干燥的光纤头在对插后竟产生水痕。水究竟从何而来?已有的经验完全无法给出解释。我猜想应该和某种现象有关,但缺乏理论依据,于是立即打电话求助CTW上认识的几位教授,上海交通大学的洪教授很快帮我找出了理论公式。我基本验证了自己的想法,迅速拿出分析报告,解决了客户的疑问。客户很惊讶,说没想到华为如此专业高效。

客户不会知道,如果华为没有和学术界长期持续的开放合作,这个答案,也许并不会来得如此之快。

至今,华为CTW先后在欧美日本等地区举办了7届,已经成为全球工业界有一定影响力的热技术交流会议。我们也与普渡大学、上海交通大学等国内外高校长期合作,还成为一些国际会议的“咖啡金牌赞助商”。

一片叶子带来工程大改进

持续的技术沙龙,让我们吸收了“咖啡”的巨大“热”量,我们希望能和学术界开展更深层的技术合作,以适应客户对网络快速发展的需求。

这一次,我们把目光投向了国内知名高校。让人惊喜的是,有着上海交通大学“怪才”之称的夏老师,用一片毫不起眼的叶子,竟帮助我们挑战了极限。

2012年底,无线产品线提出新的需求,提升分布式基站RRU的散热能力。分布式基站为华为在业界首创,采用无风扇自然散热技术,能在各种极限环境下可靠运行。但散热能力通过反复优化已经逼近极限,如果要在此基础上再提升,难度不亚于百米赛跑,10秒以内即使是0.01秒的提升都是一次艰难的突破。我们实在心里没底。

2013年初,我们向业界发出关键技术挑战英雄榜,经常脑洞大开、善于将自然科学和社会科学研究相结合的夏老师揭榜。

尽管对项目的难度早有预期,但实际操作起来更难。方案讨论了好多轮,还是找不到突破口。八月的一天午后,工程师小唐陪夏老师漫步在华为上海研究所的湖边。走着走着夏老师突然盯着一片水杉若有所思,然后他弯腰从地上捡起一片树叶,笑着说:“这片叶子,说不定能解决你们的难题。”

看着小唐一脸问号,夏老师解释:“树叶通过光合作用吸收阳光,可表温不断升高,如果这些热量不及时散掉,植物会被灼伤。所以叶子又利用大量水分的蒸腾,带走了大量的热,从而降低了表温,活了下来。自然界经过亿万年的优胜劣汰,能生存下来的物种都具备某种特长。你们的硬件正如需要散热的植物本体;散热壳体正如这片叶子,确定主脉和支脉及其关系,就可以做到最优。”

茅塞顿开。随后夏老师带着我们研究散热器的应用场景、各部分用途,讨论如何增强主脉均衡散热,优化支脉,将大部分热量传向外围空气。在进行了无数次计算后,夏老师的假设得到了验证,一个模仿生物的结构和功能原理而成的仿生散热器(leaf cooling)诞生。

“仿生散热器”作为首创技术应用于RRU中,设备在体积不变的情况下,散热效率提高15%,功能和造型设计融合,既散热又美观。在后面的合作中,老师擅长模型抽象、机理分析,我们擅长实验表征和设计应用,互为所长,相得益彰。这一技术原理还延用到微波、小站、接入室外等产品上,全面增强了产品的竞争力。

一碗拉面带来新技术的创新

随着芯片工艺的不断演进,网络的不断发展,我们的散热能力也在持续提升,但现有的风冷散热技术也有逼近极限的那一天,唯有提前储备新技术,才能在未来帮助客户应对数据流量的爆发式增长。

记得2012年第四届CTW,我们邀请到散热领域大牛美国科学院院士Dick Chu与会。Dick根据半导体芯片功耗的发展和节能的需求,预测了电子设备液冷技术的普遍发展趋势。早在2011年,我们就开始了这一方向的研究。相变液冷散热能力更强,工质绝缘安全性更高,然而也非常不稳定,开发技术难度大,我们的研究工作几经受阻。其实不仅仅是华为,一些机构研究多年都没有市场化。

而一碗拉面,让我们的研究出现转机。

2014年,我和日本研究所的同事小田在福冈九州大学的实验室见到60多岁的大田教授。大田有着深厚的飞行器相关液冷技术的研究背景,可靠性设计已经融于他的大脑,是我们的优选合作对象。

在和大田教授正式交流时,他含蓄地表达了自己还有3年多就退休了,退休前不考虑接受新的合作,何况他之前没有和中国公司合作的经验。交流结束,教授邀请我们一起去福冈一家有名的拉面馆吃拉面。

拉面馆外饰普通,店面不大,只有30来平米,墙上随处可见很多明星签名的盘子、合影。大田教授告诉我们,面馆老板一辈子只把心思放在如何做好一碗拉面上,他是这家有“技术含量”的面馆的拥趸。

拉面够劲,汤够鲜,确实美味,我一口气吃了两碗。在美食的氤氲下,大家逐渐放松下来,我们趁机再次邀请大田考察日研所。出乎意料的是,这一次,大田松口了,说可以考虑。这让我们大感意外。

一个月后,大田如约而至。和华为工程师们一番接触后,大田连声赞叹华为执着于不断提升专业技术能力,对设计方案的精细化追求,他决定和我们合作,“华为是一家不一样的中国公司,我希望在退休前能将自己的技术用到行业中。”也许如拉面吸引大田教授一样,我们也凭借“独特味道”吸引了他。

之后大田凭借深厚的技术功底,一针见血地指出我们当初考虑的基准点不对,给出了另辟蹊径的设计思路。

此后,无论是技术对表、合作商谈,每当沟通不顺时,我们都会邀请大田教授吃一碗拉面。神奇的是,一碗拉面下肚,总能使项目更进一步。项目第一期下来,大田教授不仅帮助我们解决了关键技术难题,液冷技术原型机顺利搭建测试,还让华为工程师都爱上了福冈拉面。“拉面”教授的称号由此传开。

2015年,在和大田教授合作近两年后,华为在国际超算展上拿出了完整的液冷散热解决方案,业界内存密度最高的全液冷服务器亮相,成为大数据分析强劲的引擎。目前该技术在持续完善中。

吸收“洪荒之力”的“种子”

一滴水只有融进大海才会永不干涸,一粒种子只有在土壤里才会发芽长大。在和大师喝咖啡已经成为热设计的传统之时,我们也鼓励博士和准博士这些未来的“种子”走向世界,走向开放,多喝咖啡吸收“洪荒之力”。年轻的谭博士就是其中一个。

2014年,公司的一款路由器,要求带宽流量提升4倍,散热能力必须提升30%以上。我们在增加风扇转速提升风量的同时,噪声也随之增加,并超过了限值,不满足欧洲客户的环保安全要求。降噪成为设计关键。

由于通信设备结构复杂,声源定位和传播仿真一直以来都是业界难题,传统技术做一次噪声仿真计算要28天,主要靠反复迭代打样,耗时费力不说,准确度还不可控。加上降噪涉及流体力学、传热学和气动声学等多学科,业界这种复合型人才极少。

参与攻关的谭博士有流体力学研究经验,但在噪声领域却是“小白”,导师老许鼓励小谭走出去,寻找全球一流资源协同,相互碰撞,看能否有所突破。

小谭打听到瑞典KTH大学有一个埋在地下10m的消声风洞,可以定位气流在设备流动的各种噪声,兴匆匆地扛着机箱到了瑞典,定位出衍生噪声源,识别出降噪的主要矛盾点。美研所专家Gektin在参加斯坦福大学的技术年会时,了解到一种汽车噪声仿真工具有独特的算法,计算精度很高,但从未用于通信设备。消息传来,小谭又立马请来Gektin,一起研究用新算法工具分析通信设备噪声,开展针对性合作。最终实现噪声仿真只要2周,且精度比以前提升10倍。一款低流阻的机箱消声模块也设计出来,消除了风扇转速增加带来的噪声。

之后的三年时间,在与比利时声学材料、德国低噪声风扇合作项目中,小谭持续向全球不同领域的顶尖专家“取经”,从“小白”成长为复合型人才,能独当一面承担噪声领域新技术的研究。

目前,团队未来“种子”越来越多,承担着从器件到系统各类基础散热技术研究。

走过这些年,至今最难忘也最骄傲的是,客户曾做过一个实验,关掉机房的空调后,看华为和其他厂商在内的设备运行情况,只有华为的设备还在正常运转。

站在巨人的肩膀上,摸着时代的脚心声,热设计已逐渐成为支撑华为硬件性能的关键工程竞争力。从最初的“白开水”经过“咖啡豆”的不断注入,已经慢慢烘焙调制成一杯“咖啡”:咖啡杯来自中国,糖来自日本,咖啡粉来自欧洲,奶昔来自美国……尽情地吸收着宇宙的“热”量。

 

学习华为管理

参观华为文章未经允许不得转载:参观华为 » 华为的实验室客户为什么点名要去看?

分享到:更多 ()