腾讯云颜小云:腾讯数据中心自动化运营之路

首届湾区数字经济产业发展论坛--暨“技术定义数字基础设施”第十六届中国IDC产业年度大典(深圳站)在深圳隆重召开。本次会议由深圳市工业和信息化局指导,中国通信工业协会委员会、广东省数据中心产业联盟、深圳市数字经济产业促进会联合主办,中国IDC产业年度大典组委会、中国IDC圈承办。大会吸引了众多数字经济、数据中心产业的主管领导、专家学者,以及众多从业人士参加。同时,大会开通多个线上直播渠道,供无法到达现场的网友同步观看。

  大会第二天的“数据中心建设与技术创新论坛”上,腾讯云专家工程师颜小云带来了《腾讯数据中心自动化运营之路》分享。

  


腾讯云专家工程师颜小云

  我叫颜小云,目前供职腾讯IDC平台部,主要负责数据中心的建设、落地标准和新技术研发这一块。今天给大家分享的内容与腾讯数据中心自动化运营相关。

  首先,我们了解一下腾讯数据中心的发展历程。我们是2000年成立,第一个IDC机房在深圳东门,主要是深圳运营商、电信租用。随着业务的发展,2007年的时候在深圳宝安租了霸王集团的厂房,建了第一个属于自己的数据中心。这个数据中心是冷冻水、送风的模式,相对比较传统。2010年的时候,我们开始在天津自建第三代数据中心,然后发展到现在,T-Block是我们最新的第四代数据中心。从2010年腾讯开始铺开用微模块,到现在腾讯的机房还是以微模块为主,外面制冷源是冷冻水,把冷冻水弄到房间后用空调的方式来做。从微模块机房开始,腾讯在微模块的应用上极大的推动了行业的发展,我们用了上千套微模块,在所有头部互联网公司里应该用得最多。

  从微模块开始腾讯一直在走产品化、模块化的方式。2018年,我们开始在深圳光明做我们第四代数据中心,也就是T-Block数据中心的试点。T-Block在产品化、模块化上更近了,我们除了把机房里的机柜、配电这一层做模块化,我们把空调等都做了模块化的处理。

  像T-Block数据中心这样布局的园区,腾讯这几年在全国有好几个区域,包括华东、怀来、西北等,我们都在建设这样大型的园区。每一个区域我们可能还分好几个园区,每一个园区的规模都是相当大的,我简单列了一下,每个园区光占地就有400多亩,这一个个大厂房是我们的IT机楼,大概有8栋左右,每一栋2000个机架,整个园区加在一起超过1.6万个机架,服务器超过30万台。像这样园区的规模是前所未有的,以前我们从来没遇到过。大家知道腾讯数据中心所有服务器2019年突破100万台。我们从1998年建立到突破100万台,用了20年的时间。这个园区的规模很大,这种变化对我们数据中心的运营带来很大的挑战,比如全国这么多园区,我们怎么把它管理起来,用相同的运营标准、规范,这么多的园区和这么大的数据量,我们怎么统一做上面的应用、节能、PUE降低,保证我们的可靠性,这对我们的运营带来很大的挑战。

  我们的基本思路分为三个角度:

  首先,做好平台化。现在行业里有不少同行、公司会讲很多上层AI应用,但是这一切的基础在我们看来如果没有前面两个东西,AI应用难以批量落地,或者你只能做一个试点,你想铺开产生很好的效果是很难的。所谓的平台化,是我们要把所有的数据收上来。腾讯做标准化、产品化最主要的初衷除了硬件的标准化,另一个初衷是我们在软件这一块也可以搭积木。如果关注过腾讯的T-Block就会看到我们是按一个个方仓、集装箱处理的,我们可以定义每一个接口,像以前的微模块一样。我们可以以标准化的模式把数据收上来,驱动流程,这是我们平台化做的第一步,对所有的机房集中管理、集中收集,不管是我们自建、合建还是租用,我们都会在平台上做所有的处理。

  第二,做好数字化处理。说白了就是建模,我们要把所有设备的模型建出来,每个设备厂家的差异化非常大,比如对空调来讲,不同厂家做的都不一样,我们关注的重点是100个还是50个,它的控制逻辑是什么?所有跟设备相关的模型,我们都要把它建出来,在系统上标准化。

  建好模型后,相当于我有了数据和标准,才有可能做后面智能化的东西,比如用AI做节能,腾讯落地比较多的是用AI做电池、电池故障预判、绿色碳中和等,都要基于前面这些去做。所有这一切的背后,平台化、数字化包括制冷化都落在平台一个平台上——腾讯基础设施管理平台(腾讯智维),包括怀来、清远都在外。以前这套平台不叫腾讯智维,腾讯智维是腾讯变革后把腾讯自用好的东西赋能开放给行业,所以我们给腾讯智维做了重构、加密处理,所以推出了腾讯智维。如果大家感兴趣,可以到我们平台上看看。

  我们只有把以下三点做好,才能在腾讯智维这个平台上把整个数据中心的自动化运营做好:

  第一,物模型。所有机房的设备要建好相关的模型。

  第二,相关机房的运营体系要进行重构。传统的机房基本以人为中心,机房和机房之间没有太多的联系,这个区域和那个区域没有太多的沟通,现在腾讯做的园区是全国铺下去,我们应该怎么做也要做相关的准备。

  第三,组织架构。机房是不是还按传统那样7乘24小时值班,各个工程师都要配齐。这一块我们也要做变革。

  先谈谈物模型这一块。在TMDC模块是我们的智维1.0,那时候我们没什么模型的概念,厂家给我们什么数据,我们都收上来,各个厂家的数据可能不太标准,特别是除微模块以外的数据,像水泵、外面大空调等,所有的数据都是不标准的,我们也没有太多关注,我们只是把数据收上来做相关的流程。

  到了T-Block年代做的智维2.0。我举例来说,这是电池的例子,对电池来讲物模型会涉及很多信息,首先是监控的信息,这个设备需要哪些监控特点,这是腾讯很多年的经验积累,也是行业很多同行比较感兴趣的。你们对UPS、空调、电池,你们对哪些点感兴趣?原始设备各个厂家开发出来会做很多信息,哪些最有用或者厂家给你的能否满足你的需求?原来厂家给的测点是没有模块温度的选项,我们经过运营经验发现高压直流的故障判断最有效的测点不是电流和功率,就是模块温度,如果模块温度过高,这个模块是有问题的,里面可能有灰尘或者工作不正常。像这样的测点,我们会在采购时让厂家加上,没用的测点我们就没必要存在专用的存储空间。我们会把所有设备的测点定义好,相关的告警策略要做到全国一盘棋,否则不利于我管理。所有模型的设备告警策略会做到模型,比如运维属性,什么时候做过巡检、维保也会关联,包括资产属性也会关联起来,什么时候买的,哪个品牌,什么型号,所有跟设备相关的,全部做出来。

  基于这个模型我们把智维1.0升级到2.0,包括服务器的部署,我们不是用传统两台机器做主备的方式,而是采用互联网集群的方式,在集群里布置相关的网关、数据、MySQL、Kafka、DB、HBase等,我们的物模型有一个名字叫做达尔文模型,我们会在服务器上部署相关的采集业务,通过做大数据的重组、流失计算,再把我们的告警吐到驾驶舱,我们的核心诉求是做到系统的“快、稳、准”,快是底层的告警、设备的告警,到全国、全球的监控中心,10秒钟内所有的告警必须出来。大家可能觉得10秒很久,实际上在数据中心行业是很难达到的。光设备本身就会耗掉4、5秒时间,从设备本身的监控出口出来就会耗费很多时间,我们还要经过采集、网络再传到腾讯的内网,最后进入腾讯的监控中心。我们现在自建的机房基本做到10秒内让所有监控进入到监控中心里。我们的稳定性可以做到4个9以上,包括准确性,因为告警的准确是非常重要的。行业里很多时候说做无人值守,腾讯也提出做少人值守,这一切的基础是至少告警的数据是准确的,腾讯这几年做T-Block,发现做告警的准确性非常差,我们之前所有数据中心做好后会请三方公司做测试,他们只是测你的电器能不能通,有没有弱电,但是弱电的准确性测试很少测。比如我几十个开关,是不是跳闸的时候准确反馈,它有没有弄错,这很大程度上是现场测试师的责任心,业内测试下来,这个告警的准确性是很差的。不要觉得我上层做了很多应用,其实不是这样,一切的基础要把模型、数据做好,才有可能建上面的应用,不然上面所有的应用做得太多,再好也是空中阁楼,因为你的地基没有打好。

  SLA要做到4个9,不只是架构重构,还有自监控系统,你整个系统本身的健康状况是什么样子的,你自己得知道。我们有很多驾驶舱这一块,一个是系统的关键测点,像PUE的测点是非常重要的,最重要的测点需要关注到,包括负载、冷机、开关测点,都需要实时监控起来。PUE的测点是分子除分母,其实不是。如果你的数据中心PUE值一直小幅跳动,很有可能PUE的数据采集是有问题的,它不会每秒钟都在跳。

  如果你要把PUE做好就都要把它监控起来。包括我们在上层对系统的自监控,对服务器的使用、存储的使用、关键服务组件的使用都要监测起来,有风吹草动的时候,你才可以把PUE做高。包括数据传输这一块,腾讯智维是走腾讯内网的,即便如此我们也担心挖掘机一铲子下去就都断了。我们做了4G或者5G的无线通道,如果有特别情况,我们可以通过无线的方式把告警传到全球运营中心。

  前面讲的都是我们智维平台这一块的变化,也提到如果我们要做自动化运营相关的架构、人员架构也会要做相应的挑战,这是我们运营架构的挑战。从腾讯园区的示意图,大家可以看到一个园区有8栋机楼,我们会在每栋几楼建最顶级的监控中心,包括现场的7乘24小时监控。8栋楼,2000个机架加在一起的服务器也不少,每个机架大概20台服务器,量是很多的。1万多台服务器用一个ISC监控,我们会建区域ECC,做区域监控、应急指挥和备件技术及供应商。我们清远现在有清新、清城、怀来,我们每个区域都会建大的ECC。在滨海那栋楼,我们有全国监控的ISC服务台,我们全国都会接进来,应急事件的处理,包括二级专家的支持都是在ISC这个服务台处理。大家可能三级架构谁都可以建,前提是如果你的数据和告警不能准确地上到ECC和服务台,你的告警不能10秒钟上来,你搭建了这些东西也用不起来,前提是我们一定要把数据处理好。

  相应的组织架构建设好,我们的人员也做了相应的调整。左图是我们之前第三代数据中心采用的运维结构,区别是很明显的,传统的模式大家都知道机房里就是7乘24小时倒班,每个班都要做巡检,要配专职工程师,白天还有工程师查白班。但是在大园区我们机房上了很多,公司在人力这一块并不会一下子给你加很多人力,最大的变化是我们设立了综合工程师这么一个概念。7乘24小时值班的工程师没必要配那么多专业的工程师值班,一旦把专业的工程师不让他做轮班,只让他做白班,人员就会降下来很多。把人力放在二线,支持全国服务台,至少人力这一块可以降低接近30%。

  总结来看,为了面对腾讯大规模机房,我们大园区的上量主要在平台这一块,就是智维平台以及重构相关三级体系,我们运维人员的架构也做了相关的调整。

  最后一页是关键数据。现在腾讯在整个智维平台上,园区的覆盖超过80个园区,覆盖服务器范围超过120万台,日均告警4000+条。我们每天有100多单事件,包括故障处理的事件,也包括变更、维保的事件,包括维修的事件单。目前腾讯服务器的量应该是行业里最多的,覆盖了重点区域,自建的园区、云的园区也也超过50万个,服务器超过80万台。 

相关产品

评论