随着“新基建”进程的不断推进,数字化转型升级进度加快,数据中心作为未来经济社会发展的战略资源和数字基础设施,在迎来爆发式增长的同时,其算力不均衡、能耗高、精细化管理不足等问题凸显,数据中心高质量发展战略已成为全行业深化数字化转型的时代机遇。
关于数据中心的高能耗问题,国内不同研究机构给出的年能耗值不尽相同,部分研究机构预测未来十年,国内数据中心耗电量将翻倍。事实上,随着数据中心节能新技术的应用,尽管算力需求持续高比重增长,未来的数据中心的高耗能、高碳排放的情况未必会到达如此高的水平,但这并不意味着IT行业和决策者可以高枕无忧。数据中心的绿色节能低碳发展依然是值得关注的重点课题。
2020年9月我国明确了“碳达峰、碳中和”目标,标志着中国对促进经济高质量发展,社会繁荣和生态环境保护的决心。2021年2月,国务院发布《关于加快建立健全绿色低碳循环发展经济体系的指导意见》,要求加快信息服务业绿色转型,做好大中型数据中心、网络机房绿色建设和改造,建立绿色运营维护体系。2021年6月国管局和国家发改委联合发布的《“十四五”公共机构节约能源资源工作规划》和同年11月由国家发改委、中央网信办、工信部、国家能源局四部委发布的《贯彻落实碳达峰碳中和目标要求推动数据中心和5G等新型基础设施绿色高质量发展实施方案》中均要求大型、超大型数据中心运行电能利用效率下降到1.3以下。2021年7月,工信部发布《新型数据中心发展三年行动计划(2021-2023年)》,提出坚持绿色发展理念,支持绿色技术、绿色产品、清洁能源的应用,全面提高新型数据中心能源利用效率。
随着国家一系列政策的相继颁布,数据中心绿色、低碳发展作为数据中心高质量发展战略的重要部分应运而生。数据中心绿色、低碳发展通过创新节能技术提升设备的能效,充分利用可再生能源降低碳排放,进而推动数据中心作为数字化新基建的基础性支撑作用,驱动社会实现节能降碳的目标。
01
何谓“绿色”数据中心?
绿色数据中心旨在取得最大化的能源效率和最小化的环境影响,一般来说,包括数据中心的性能效率、环境影响、资源整合与能源统筹等方面。
性能效率是基本要求,高可靠性的数据中心需要满足GB50174《数据中心设计规范》中A级数据中心的要求。一方面要保持数据中心无故障持续运行,另一方面数据中心的IT系统、制冷、照明和电气系统能够保持稳定高效率运作。环境影响主要指数据中心在正常生产运行过程中对外部环境所带来的影响。在建筑规划和建设阶段,应结合建筑的使用功能和规划定位,对项目进行包括大气、水、土壤、声、固体废弃物和生态的综合环境影响评价。资源整合主要考察数据中心建设过程中的材料选择、建造技术、设备或材料回收和可再生利用率及产品包装等方面。能源统筹侧重于数据中心运营后的能源管理、节能措施等方面。
在现阶段,绿色数据中心的评价主要是考虑其性能效率,兼顾数据中心运营后的能源统筹,提高整体能源使用效率。
数据中心由于存在高发热元件散热瓶颈、资源利用率和能源效率低“三大难题”,所以其绿色节能亦非常重要,从国家到地方层面都对数据中心的能耗进行了引导和限制。
图一:数据中心的能源使用
数据中心的主要耗能为IT设备、配电系统和暖通空调系统,见图1。一个典型的数据中心,能耗主要由四大块组成:第一大块,是占数据中心总能耗约50%以上的IT设备系统,包括服务器设备、存储设备和网络通信设备等;第二大块,是占数据中心总能耗约38%的空调系统,其中,空调制冷系统约占总功耗的25%,空调送、回风系统约占总功耗的13%;第三大块,是占数据中心总能耗约10%的UPS供配电系统,其中UPS供电系统约占总功耗的5%,UPS输入供电系统约占总功耗的1%;第四大块,数据中心总功耗剩余的1%属于辅助照明系统。
由以上分析可以看出,数据中心的IT设备为最大的能源消耗,这一部分能耗最大的是以服务器为代表的计算设备,因此需要重点关注服务器能效的状况。数据中心内暖通空调系统的能耗占数据中心总能耗约37%以上,该部分也被视为数据中心节能的极具潜力部分。供电系统的能耗约占数据中心总能耗的10%,主要来自于变压器、UPS等供配电系统的转换,其次是照明。因此数据中心的绿色节能,要从计算设备,例如服务器,暖通空调和电气三个系统做出努力。
02
如何提高数据中心能源使用效率?
数据中心整体能源效率的提高离不开其各组成设备的能效提升,或者说提升设备的能效能够直接有效提高数据中心的能效,例如提高服务器能效、减少供电损耗等,但设备级能效提高会遇到瓶颈,到了一定程度由于技术和成本的限制,其能效无法再次提高或者提高能效造成成本急剧上升。在设备能效提升遇到困难后,通常采用提高系统能效的方式,例如通过负载优化使服务器工作在高能效状态,待机服务器进行优化;或者通过气流组织分析,使制冷和空调散热在时间和空间上进行匹配,因在系统能效的弹性比较大,通常从小的系统开始做起,逐渐引入更多变量,涉及的系统越来越多,同时再考虑管理因素,就成为从组织层面提高能效的方法和途径。
03
产品节能技术
3.1 服务器
数据中心的本质作用是提供算力资源,并且数据中心能耗占比最大的是信息设备能耗,抛开计算能力,单纯追求极低的电能使用效率(PUE)是不合理的。英特尔、三星、高通、英伟达等众多半导体厂商纷纷发力,各种加速芯片百花齐放。XPU(CPU、GPU、DPU等各种服务器处理器的统称)成为半导体芯片厂商竞争的新赛道,一条清晰的竞争主线也逐渐明显——各大芯片企业都在构建自己的多元化产品能力。其中,英特尔基于XPU产品战略,打造了从CPU到GPU、FPGA、IPU等多种异构算力资源,以XPU+oneAPI为抓手推动异构计算,打造从云到端的全面产品组合,涵盖CPU、GPU、IPU、FPGA和专用ASICs等解决方案,解决了各种不同的处理器采用不同架构和不同指令集所造成的处理不同计算场景的不同表现,更好的应对计算的多元化,实现提供强大的计算力和足够的灵活性的双赢,并且在功耗、可靠性、体积等方面都有优势,解决了通用计算在处理海量数据时采用更多处理器带来的高昂成本和更高发热量问题。
服务器芯片算力的提升,计算场景的多元化对于数据中心节能至关重要。英特尔通过专用加速芯片大幅提升负载处理速度,也就是说同等工作量算的快。发力GPU和AI,提供更高计算密度和更快计算速度。其中,即将推出的代号为Arctic Sound-M(ATS-M)的英特尔数据中心GPU,能够提供每秒150万亿次运算(150 TOPS)。首个旗舰级数据中心GPU—Ponte Vecchio,已经在复杂的金融服务应用以及AI推理和训练工作负载方面展现出了卓越的优势。于今年5月发布的专用于高性能深度学习AI训练的Habana Gaudi2处理器,以及基于Xe HPC微架构且专为高性能计算和AI所设计的Ponte Vecchio GPU能够通过支持多样化架构,让终端用户充分利用处理器的高性能和高能效。
数据中心的能耗结构中,制冷空调系统的能耗仅次于信息设备能耗,如何降低数据中心的制冷能耗成为降低PUE的关键。随着服务器单位功耗增大,原先尺寸的普通服务器机柜可容纳的服务器功率往往超过15kw,在现有的风冷数据中心情形下,这已经到了空气对流散热能力的瓶颈。液冷技术作为一种散热能力更强的技术,可以助力更高的功率密度。液冷技术指使用高比热容、高传热系数的液体作为热量传输的工质满足服务器等IT设备散热需求的冷却方式。也就是说通过液体来替代空气,把CPU、内存条、芯片组、扩展卡等器件在运行时所产生的热量带走。常见的液冷技术包括冷板式、浸没式和喷淋式三种主要形式,液冷服务器可以接受更高的冷源供回水温度,最大化的利用室外自然冷源,有效降低数据中心PUE至1.2以内。联想基于新一代海神温水水冷技术,以及第三代英特尔®至强®可扩展处理器,打造了联想ThinkSystem SD650服务器,采用创新散热技术提升性能,降低功耗。在上海交通大学打造了“思源一号”高性能计算集群,PUE可低至1.1左右,实现42%的节能减排。
液冷服务器虽然在散热效率上有较大提高,但是由于标准化水平比较差,业界尚未有统一的设计规范,因此可靠性仍待提高,成本还需要降低。英特尔聚力携手产业生态伙伴开放创新,构建液冷解决方案,在芯片、服务器、机架、数据中心四个水平方向进行研究,探索更经济、更高效的冷却方案设计参考,致力于提出冷板液冷系统设计相关的要求,以及未来液冷设计需要遵守的规范要求,为数据中心液冷方案设计与研究提供路径与借鉴,通过产业伙伴共同提高冷板液冷技术关键部件的质量,共同促其标准化,降低设计与使用成本,从而推动建立并完善冷板液冷的生态系统促进整个产业的成熟度提高。
3.2 机柜级别的节能优化技术
机柜级的节能技术主要包括:依据业务量、业务类型等引起的负载变化,进行功率的自动调整;采用完善的供配电方式,提升单机柜功率密度;提升计算密度,统一供电和共享散热管理等技术措施。
根据英特尔的实测数据显示:使用机架备用电池消除计划外峰值功耗,可将服务器上架率提高20%~30%。提升计算密度,通过增加母线电压,适应大功率机架之需,可将电源效率提高2%,并提升机柜空间利用率,来综合提升能效。模块化设计贯彻绿色节能理念,实现统一供电、共享散热管理。液冷冷板式散热,搭配专业冷媒,覆盖 CPU、内存等主要部件,整机PUE低至1.1,且能够极大降低总体拥有成本。进行处理器功率控制调优,和根据业务负载自动调整功率,以及基于英特尔的开放处理器微代码,调整主板与处理器电压等举措。实践表明,这一方案显著性提升了功率密度,可支持高达20kW的单机柜功率密度,实现算力的有效提升,即使采用纯风冷,PUE 也可内控保持在1.2以下。
此外,英特尔携手中国电信共同推进AI节能技术部署,制冷系统节能率超23%,机房平均PUE从1.49降至1.38;同时,也联合超聚变共同打造极简架构高算力密度整机柜服务器,使制冷PUE低于1.1,单机柜支持144个高功耗CPU。
04
系统能效提升技术
合理的末端空调气流组织是空调系统节能降耗的基础和前提。提高精密空调的送回风温度和冷源的供回水温度一直是数据中心暖通系统节能的共识,但往往由于末端气流不合理造成以上节能措施达不到理论上的高效节能目标。合理的气流组织体现在数据中心机房内机柜进风区域空调冷气流分布均匀,垂直和水平方向温度场处于相对均衡状态。可以借助相关风量、风速、温度场测试仪器开展气流组织的测量和评估,将抽象的气流场参数化和具体化。通过测量技术的应用,探索数据中心机柜送风区域气流组织与温度场分布的耦合关联,在完善气流组织管理的基础上,进行末端精密空调运行方式研究,通过测量优化,实现机柜进风区域温度相对均衡分布,建立基于气流组织优化的空调节能运行管理策略。最后,将气流组织及空调节能管理策略AI智能化,保障测量、调优、管理和节能的精准控制。
AI智能控制技术的应用有助于数据中心能效的提升,主要应用于供配电系统和制冷空调系统。增加对可再生能源的利用,是减少碳排放的关键步骤。英特尔已经开发出一项解决方案,可集成到现有的能源网基础架构中,以打造出可适应不断变化的能耗需求和能源来源的智能化水平更高的电网。英特尔联合一些全球最大规模的公用事业运营商组建了智能二级变电站边缘设备联盟(Edge for Smart Secondary Substations Alliance),以实现电网变电站的现代化,并更好地支持可再生能源。法国最大的电网运营商Eenedis最近加入了这一联盟,采用了提供全网实时控制的解决方案,对超过80万个二级变电站进行了升级。为风能发电厂提供智能运营的北京金风慧能技术有限公司,通过利用英特尔AI解决方案、CPU集成AI加速,采用英特尔®DLBoost、Analytics Zoo,将风能预测的准确率从原先的59%提高到了79.41%。
将AI智能控制技术应用于制冷空调系统的自动控制逻辑,通过预测室外气象参数、分析负载变化情况、计算冷源设备特性,调优冷源系统控制逻辑,最大化地利用室外自然冷源,实现制冷系统的高效节能。
高压直流(HVDC)是为受人关注的技术,相比传统的UPS减少了一个DC/AC逆变环节,使得电能利用效率大大提高,相比传统UPS系统方案,其节能效果据测算最高可以提高8%。同时由于直流输电导线根数少,没有感抗和容抗的无功损耗,只有电阻的发热损耗,提高了配电传输中的节能效果。直流输电只需两根导线,能够节省大量线路投资,因此电缆费用省得多。
05
从组织层面提高能效
影响数据中心能耗的因素涉及多方面,包括服务器系统、空调制冷系统、供配电系统、机房装修、照明、变配电设备、供配电电缆等,甚至运行维护的水平都会影响到数据中心的能耗。通过对数据中心各子系统运行负荷和用能效率的分项监测、分析,发现各子系统运行中存在的耗能问题,有针对性的对各子系统进行运行调整和技术改进,降低数据中心电能消耗,提高整体能效。传统数据中心采用人工或者人工与动环系统相结合的能耗分析方式,面对海量的运行数据和报表很难做到监控全面、预测精准、分析和控制到位。因此必须借助数据中心能耗分析工具,对数据中心的设备级、系统级以及项目级的能耗情况分级把控。
比如英特尔研发的数据中心能耗分析工具,主要涵盖监控、分析、预测和控制四个功能板块。
● 监控功能:带网络自动发现功能,支持多种设备和多种协议,支持各品牌设备,能够跟踪设备能耗变化趋势;
● 分析功能:及时发现机房内热点,具备服务器能耗分析功能,识别空调制冷和气流组织的不均衡问题,及时发现“僵尸服务器”,具备容量分析功能,实现智能容量管理;
● 预测功能:容量增长预测,温度健康预测,关联应用的能耗和温度预测;
● 控制功能:服务器能耗控制策略,基于热点的制冷分析,提高服务器机柜容量,基于温度/功耗的应用迁移。
基于数据中心能耗分析工具对各设备、系统运行状况及能耗情况等数据信息的监控、分析和预测,及时发现问题,并制定精确的高效节能控制策略,依靠能耗分析工具的控制功能开展控制策略的实施,实现全面监控、精准预测分析和控制的全链条能耗管理策略。
在数据中心业界广泛使用CQC8302-2018《数据中心基础设施运行与维护评价技术规范》中对能效管理有如下要求:
1)制定能效管理制度,明确能耗数据的采集要求、采集方法及频率,通过采集的数据进行系统分析,分析内容包括但不限于:
统计分析数据中心整体用电量变化情况;
a.统计分析数据中心日耗电量及日平均耗电量情况;
b.统计分析数据中心能耗组成及占比;
c.统计分析数据中心月度能效指标变化情况;
d.统计分析UPS系统自身能耗变化情况;
e.统计分析空调暖通系统能耗变化情况;
2)统计分析数据中心耗水量变化情况(风冷系统选择不适用),了解对IT 设备运行特征的状况:
a. 是否对数据中心基础设施所承载的到机柜颗粒度的IT设备运行峰谷期进行分析和了解;
b. 是否与客户或用户相关部门做好沟通,针对高密度IT负载的部署做出预测,并制定相关应对方案。
3)具备管理气流组织的能力,包括但不限于:
a. 应封堵设施建筑所有可能的漏风口,维持设施的正压;
b. 应疏导设施内气流的流向、封堵所有可能的漏风口、对机柜内所有空闲U位安装盲板、关闭不必要的出风口、保证冷空气的最佳使用效率。
4)对运行阈值设定有管理制度和周期性修正策略。
5)基于安全性及运行效率的综合考虑,建立运行阈值设定指南,设置监控报警阈值、空调回风温度等。
6)定期进行能耗分析会议,不断完善及优化能耗管理策略。
上述能效管理要求,如果采用手工的方式进行操作,将极大耗费人力,且很难持续符合要求,英特尔的数据中心能耗分析工具能够协助数据中心运维人员持续满足CQC8302-2018《数据中心基础设施运行与维护评价技术规范》的要求。
数据中心项目级别的能效管理,需要与组织的能源计量体系和能源管理体系结合在一起,融入数据中心运维体系之中,充分融合数据中心能耗分析工具和运行维护体系融合,在保证数据中心安全运行的基础上,不断寻求节能潜力,采用各种创新技术,提高整体的能效水平。
06
结论与展望
虽然数据中心能源消耗量比较大,但整个数据中心能耗水平与提供的计算能力相比,增长并不多,其中主要得益于近年来服务器能效水平的提升。2020年2月28日发表在《科学》期刊的一篇论文,题目是《全球数据中心能源使用在需求快速增长下仍然放缓》。该论文研究计算出2010年至2018年间,全球数据中心需求增长了550%,数据中心能源使用仅增长了6%。因此对于数字经济有重要作用的数据中心,仍然要大力发展。
在大力建设数据中心的同时,注重节能低碳绿色技术的研究和应用,同时节能低碳技术需要与管理有机融合,共同驱动数据中心的高效节能。“三分建设,七分管理”已经是数据中心行业的共识,通过液冷技术、高效冷却技术、高效芯片服务器等节能新技术的应用,配合精细化的运行维护管理,最终实现数据中心的绿色节能。
智能化技术的应用促进数据中心绿色高质量发展。AI智能控制技术能有效提高服务器运算效率、供配电效率和制冷能效,推动数据中心能效的提升。借助智能能耗分析工具,通过监控、分析、预测和控制等模块功能的实施,实现各设备、子系统和项目级的能耗监测与控制,助力数据中心绿色高效发展。
因此,数据中心的绿色节能低碳发展不能单纯的追求极低的电能使用效率(PUE),需要结合算力、IT设备能耗、暖通空调能耗、供配电能耗等多方面综合考虑。
数据中心绿色高质量发展具有社会层面的引领和表率作用。不仅会使高能耗产业快速转变发展方式,加快千行百业的数字化转型过程,实现快速节能降碳,同时,数据中心实现双碳目标时采用的一系列先进技术和思路,为其他行业带来启发。通过技术迁移,这些思路可以帮助其他高耗能行业,包括农业、物流、采矿和制造等领域实现碳排放的减少,使这些行业在实现数字化转型的同时,加速向碳中和转型的步伐,从而实现数据中心绿色高质量发展,发挥更大的社会价值。
作者:武彤,中国计量科学研究院先进测量工程中心主任