广告

AI加速器能促成绿色数据中心吗?

2020-08-10 17:52:55 Sally Ward-Foxton 阅读:
加速器使AI处理受益最大,CPU则继续在超大规模和企业数据中心市场赢得席位,因为CPU应用更加灵活。随着AI应用的不断扩大,以及新的5G应用产生更多的非结构化数据,数据中心的能耗不太可能很快下降。

由于大部分繁重的AI任务都是在云端完成的,因此人们很容易忘记AI需要大量的计算资源及电力。ECzednc

马萨诸塞州大学阿默斯特分校去年的一项研究发现,训练一个大型自然语言处理(BERT)AI模型因消耗电力而产生的二氧化碳(CO2),相当于跨大西洋往返航班对每个乘客所产生的CO2。那只是一个模型,虽然是变换网络,但只需训练一次。开发过程中通常会对模型进行多次调整和反复训练。如果将神经网络结构搜索(一种使用AI来调整模型的AutoML技术)加入一个大小适中的转换器中,其CO2总排放量将猛升到几乎与5辆美国汽车的终身排放量相同。ECzednc

AI加速器有望提高AI处理的计算效率。随着AI处理量的不断增加,数据中心将会采用这些新的专用加速器。ECzednc

但是AI加速器可以节省能源吗?究竟是总的用电量下降了,还是数据中心只不过利用同样的电力实现了更多的计算?ECzednc

AI训练策略

“AI计算使用的能量多少是由几个因素决定的。”IBM Cognitive Systems技术计算副总裁David Turek解释说,“采取什么样的策略来训练模型,会影响所消耗的能量。每瓦特的计算量并不是特别有用的指标,因为有很多种不同的方法可以降低总能耗。”ECzednc

他补充说,整个系统架构和应用环境决定了实际上需要多少能源。“从模型训练到模型部署,计算能力的不同级别直接影响其基础架构,从而直接影响所消耗的能源。”ECzednc

人们通常认为,AI系统中一次只训练一个模型,然后将其部署到其他地方进行推理。但事实并非如此,典型的AI系统会多次训练很多模型,并且可能同时在多个模型上进行推理以获得最佳结果。ECzednc

完成部署后,有时会使用联邦学习(federated learning)之类的技术,在边缘而不是回到数据中心更新增量模型。需要消耗多少能量取决于在边缘进行什么处理。ECzednc

换句话说,训练特定的AI模型所消耗的能量并不是直接就可以确定的。“但数据中心的基础设施是固定的,因此调整工作流程是节省能源的最好方法。”Turek说。ECzednc

可能的方法有:将AI模型与传统的高性能计算融合,以减少所需的总计算量;缩短完成一项工作所花的时间,以减少GPU等高能耗AI加速器硬件的使用;避免在数据中心使用联邦学习之类的技术重复训练。ECzednc

Turek说:“这是从管理的角度来聪明地安排工作流程,利用最佳的方法为现有系统分配可用的能源。通过能源预算和能源消耗,运营商可以在其硬件基础架构上进行调度分配。”ECzednc

在更高的温度下运行

服务器制造商Supermicro去年年底发布的数据中心环境实践年度调查报告显示,能源效率仍然有机会提高。Supermicro营销和网络安全副总裁Michael McNerney认为,这些机会正在流失。ECzednc

McNerney说:“我们认为一些基本的最佳实践可以为客户带来很大价值。其中的一条是,相比传统的数据中心环境,我们今天构建的系统可以在更高的温度下运行,许多长期从事数据中心运营的人却没有意识到这一点。”ECzednc

在目前的设计中,不再需要将设备冷却到23~25°C来确保其性能和可靠性。一些“绿色”数据中心处于极端温度下,即便是很小的变化,例如减少空调的使用,也可以节省能源。ECzednc

ECzednc

图2:现代服务器和基础设施可以在更高的温度下运行,并且切换为多节点系统,从而降低了总能耗。ECzednc

多节点系统是节省能源的另一种方法,其中多台服务器在共享的基础架构上运行。这种配置减少了所需的大型电源和风扇数量。多节点系统具有更高的能源效率,可以在更高的温度下运行,并提供更高的功率密度。ECzednc

Supermicro的调查还发现,目前每个机架的平均功率密度为15kW,服务器进气入口温度为23.5°C,服务器每4.1年更换一次。而在采用高度优化绿色设计的数据中心(占受访者的12%),每个机架的功率密度超过25kW,平均入口温度为26.5°C,服务器每2至3年更换一次。因此,Supermicro得出结论,大多数数据中心仍需继续优化能效。ECzednc

令人惊讶的是,大多数受访者并不认为能耗是成功的关键指标。“我们已经看到,公司的设施预算与硬件及系统的资产购置成本是分开的,它们与人力成本也是分开的。我认为人们很清楚地知道这一点,但是并不会进行综合考虑和优化。”McNerney说。ECzednc

“较大的数据中心更了解总运营成本,但若增加资产购置预算,能源预算就会减少,人们有时很难把这两者关联起来。”ECzednc

McNerneyt认为整个数据中心的功耗并不会很快下降。他说:“长期的发展趋势是,一些在线服务的能耗会随着效率的提升而改善,然而随着5G和AI的逐渐普及,总体功耗仍将继续增加。”ECzednc

电费与能耗

英伟达加速计算产品管理总监Paresh Kharya表示,数据中心运营商希望全面提高能效,因为电费占其运营成本的25%。ECzednc

能源使用效率(PUE)是一项广泛使用的用来衡量能源节约的指标,表示计算所消耗的能源与数据中心基础设施消耗的总能源之比。目标是PUE等级为1。ECzednc

Kharya说:“多年来,超大规模数据中心的PUE接近1或1.1,非常高效。企业数据中心也取得了很大进步,大多数情况下,其PUE等级已经从大于2降到了远远低于2。”ECzednc

超大规模数据中心采用优化的机架和散热设计,可以大规模运行,其优化和使用复杂技术的能力是大多数企业数据中心不具备的。Kharya表示:“许多企业已开始采用这些创新技术,能源效率得到了显著提高。”ECzednc

由于各家公司关注的是电费而不是功耗,所以Kharya认为,执行任务所花费的时间是一个重要因素。“例如,在一台只有CPU的服务器上训练ResNet-50模型的图像识别可能需要长达三周的时间,而配备英伟达V100 GPU的服务器可以在一天之内完成这一任务。”他补充道。ECzednc

“每台配备英伟达GPU的服务器比配备CPU的服务器消耗的能源更多,但它完成任务的时间将大大缩短。因此,如果使用GPU加速器,用于完成AI处理的整体能耗将降低至原来的20到25分之一。”Kharya强调。ECzednc

了解数据中心工作负荷

英特尔数据平台营销总经理Allyson Klein表示,数据中心运营商会尽量确保所有系统高效运行,让昂贵的基础架构提供最大的计算能力。ECzednc

“数据中心运营商的主要目标是使基础架构的性能达到最好。”Klein说,“性能高低取决于系统和机架的级别,同时还需要整个数据中心协同工作,使每瓦性能达到最高。”ECzednc

因此,为了部署合适的基础架构来满足性能和能耗要求,全面了解数据中心的工作负荷非常重要。最理想的结果是计算容量更大,功耗更低,并且不会闲置基础设施而白白消耗电力。ECzednc

究竟是在CPU中集成加速功能还是采用分立的加速器,这通常需要进行权衡。Klein说:“加速器会增加功耗,但如果它一直工作,则整体效率更高。如果加速器完成大量工作,利用率高,在客户愿意投资基础设施的情况下,使用分立的加速器是较好的方法。如果不能一直使用加速器,则采用CPU方法可能是更好的选择,因为加速器经常会空闲,耗电却不执行任何任务。”ECzednc

Klein表示,在大多数部署中,AI只是数十万种不同工作负荷的一种。尽管英特尔提供了CPU和专用AI加速器(通过Habana Labs),但由于工作负荷种类很多,从功耗和投资角度来看,Xeon Scalable(CPU)平台可以说是最高效的产品。ECzednc

Klein说:“英特尔的AI策略建立在Xeon Scalable处理器的基础之上,Xeon Scalable内部做了AI优化,并针对机器学习和深度学习进行了大量软件优化。”ECzednc

提高效率

尽管GPU等AI加速器能耗很大,但进行AI处理时,它们的高计算效率可以降低总能耗。AI处理在数据中心所占比例越来越高,但数据中心日常处理的负荷种类仍然多种多样。ECzednc

加速器使AI处理受益最大,CPU则继续在超大规模和企业数据中心市场赢得席位,因为CPU应用更加灵活。随着AI应用的不断扩大,以及新的5G应用产生更多的非结构化数据,数据中心的能耗不太可能很快下降。ECzednc

(原文刊登于ASPENCORE旗下EEtimes英文网站,参考链接:Can AI Accelerators Green the Data Center?ECzednc

本文为《电子技术设计》2020年08月刊杂志文章,版权所有,禁止转载。免费杂志订阅申请点击这里ECzednc

本文为电子技术设计原创文章,未经授权禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
  • 微信扫一扫
    一键转发
  • 最前沿的电子设计资讯
    请关注“电子技术设计微信公众号”
广告
热门推荐
广告
广告
广告
EE直播间
在线研讨会
广告
面包芯语
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了