2013 年,中国凭借「天河二号(TH-2)」超级计算机成功击败美国的「泰坦(Titan,由 Cray——美国著名超级计算机制造商于美国橡树岭国家实验室研造)」,成为世界上运算速度最快的超级计算机。随后,中国乘胜追击,于 2016 年凭借「神威·太湖之光(Sunway TaihuLight)」超级计算机以近两倍于「天河二号」的运算速率与三倍于其的运行效率,坐稳了超级计算机领域的头把交椅。至今,我国包揽了世界顶级超级计算机榜单的前两位。
今年年初,中国趁热打铁,想要率先完成世界第一台运算速率为「百亿亿级」的超级计算机的研造。面对中国的威胁,美国能源部向惠普企业(Hewlett Packard Enterprise,简称 HPE,2013 年于美国惠普公司「HP Inc.」中分离出来,着力发展云计算解决方案)进行研究拨款,命其根据 The Machine 项目现有的技术来制订百亿亿级超级计算机的参考设计方案。
这个 The Machine 项目是什么呢?它是由惠普企业在 2014 年开启的一个旨在「彻底改造基础计算结构」的一个科研项目。然而该项目喜忧参半,以至于惠普企业后来并不打算将 The Machine 完整推向市场,而是将其精粹与革新部分融合到其他惠普企业的商业服务器和技术当中。
(The Machine 设备一角)
回到正题。纵观历史,我们不难发现世界上绝大多数的顶级超级计算机都是由美国能源部掌握并操控的。但近年来,中国开始以疾风骤雨之势占据这份榜单。中国的顶级超级计算机「神威·太湖之光」的最佳性能(每秒 93 千万亿次浮点运算,petaflops:peta,10 的 15 次方,表千万亿次;flops,每秒浮点运算次数)是美国第一超级计算机「泰坦」运算速率(每秒 18 千万亿次浮点运算)的五倍。
美国曾「桀骜不驯」地宣称其将于 2021 年左右完成世界首个百亿亿级(相当于每秒 1000 千万亿次浮点运算速率)超级计算机的研发并将其投入使用,重新夺回美国在超级计算机领域的王座。但中国似要先声夺人,今年一月份,我国超级计算机中心宣称中国首台百亿亿级超级计算机原型机将会在 2017 年年底研发完成,并预计在 2020 年之前投入使用。
(「泰坦」超级计算机)
想要从无到有地研制一台百亿亿级的超级计算机,研究者们必须解决三个主要问题:一、极大的电力消耗(数十亿瓦特)与极高的冷却要求;二、计算机的构造与连接线必须设计精巧,以保证成百上千的处理器与内存芯片能够有效运转;三、设计制造一组能够真正能够在每秒百亿亿次运算的状态下仍可正常运行的操作系统与客户端软件。
要是较起真来,不解决上述三个问题也是可以架构一个「所谓的」百亿亿级超级计算机的——只要把无数个 CPU 连接在一起,直到运算速率足够就行了——但其实,这样「搭建」起来的「超级计算机」是无法做到每秒进行百亿亿次运算的。即使可以,它每次的运行成本也都会达到令人咋舌的天文数字,对其实际应用造成了巨大限制。
(「神威·太湖之光」超级计算机)
据外媒 Ars Technica 称,中国现在就是在以这种「累加堆砌」的方式制造超级计算机:先在 2017 年把所需的硬件安在一起,然后用接下来的几年试图使这些硬件运转起来。
Ars Technica 同样称,美国国家能源局选择了一种更为「沉着稳健」的方式来研制超级计算机,那就是为惠普企业拨款来研发百亿亿级超级计算机的参考设计方案。拨款的资金来自于美国国家能源局一项名为「PathForward(前途)」的项目,该项目是 ECP 项目(Exascale Computing Project,百亿亿级计算项目)的子项目之一。
ECP 项目由当时的奥巴马政府组织建立,已对美国的各项针对百亿亿级计算机的研究项目给予了数千万美元的资金支持。惠普企业所收到的资金援助也由此可见一斑。
因此,惠普企业的计划是什么?它有希望在美国国家能源局的三轮资金援助申请中过关斩将,并且在中国之前将百亿亿级超级计算机研制出来吗?
惠普企业称他们将基于一个称为「记忆驱动计算(Memory-Driven Computing)」的架构来研制这款百亿亿级超级计算机。「记忆驱动计算」架构就是从 The Machine 中导出的。
简单说来,惠普企业已有一整套成型的技术使得不计其数的可寻址存储器(其总存储量可达 4096 尧字节,1 尧等于 2 的 80 次方,4096 尧大约是全宇宙原子的数量)可被一个高速、低能耗的光互联器件连接起来。而该光互联器件是由一个全新的硅光子芯片驱动的。
(惠普企业的 X1 硅光子互联器件)
现在,由此构建的整个存储器还极不稳定,但假以时日——一旦惠普企业将其忆阻器技术投放市场,或者引入英特尔的 3D XPoint 内存技术——该存储器将会稳定下来。
更重要的是,惠普企业宣称他们已经研发出可以真正使用如此大量存储空间的软件工具。该工具可以从庞大的数据集(比如:Facebook 上所有人发的所有内容;全世界网络上的全部内容;地球上所有人的健康数据,等等)中推引出隐含信息和科学价值。
惠普企业 CTO Mark Potter 毫不质疑地表示其公司的科技将成为拯救人类的曙光。他说道:「我们坚信记忆驱动计算是推动科技产业前进的重要举措。我们将由此迎来惠及全社会的进步。我们此次揭露的存储架构可以应用到所有类型的计算中——从尖端智能设备到超级计算机,不一而足。」
实际上,我们还是离 Potter 的理想有一定距离的,但是惠普企业的技术确实是实现研制百亿亿级超级计算机的重要一步。
如果你是评委,需要为惠普企业所做的努力点评一二,倘若以本文之前提到的三大问题的解决程度为评判标准,估计「差强人意」或许是你会使用的字眼:他们在软件使用、能源消耗、和规模升级上都取得了一定的突破。但前路漫漫,研制超级计算机所需要解决的问题很多,尤其是像提高运算速率这样的难题,更是复杂棘手。
美国已全面禁止英特尔、Nvidia、和 AMD 的超级计算机芯片向中国出口,在此之后,中国国家芯片设计中心研发出专为超级计算机设计的 256 核 RISC(精简指令集计算机)芯片。惠普企业目前能提供的就是可用于不同芯片交流的 Gen-Z 协议,他们同样承诺会研制出逻辑芯片,使超级计算机的实现更进一步。
(The Machine 原型机,有着核辐射般诡异的绿光)
尽管如此,目前美国超级计算机的研制仍是在最初的筹资阶段,惠普企业对百亿亿级超级计算机技术的研发目前也只是纸上谈兵。只有当超级计算机项目进入到第二和第三阶段,惠普企业才会真正开始设计并研制超级计算机。
如果所有程序都按部就班地进行,英特尔最新的 72 核/288 线程 Xeon Phi 芯片可能会使美国领先一步于中国完成百亿亿级超级计算机的研造。但是由于其单个芯片的建议零售价为 6400 美元,而研造一部百亿亿级的超级计算机大约需要 30 万个这样的芯片,这不菲的价格或许也是美国需要考量的因素。
美国国家能源局的大多数超级计算机项目拨款针对的都是可应用于其上的软件程序。这次,美国国家能源局还将为加入到「PathForward」项目中的包括 AMD,Cray(「泰坦」超算制造商),IBM,英特尔,以及 Nvidia 等知名公司提供研发资金支援。美国国家能源局预计在三年内为 PathForward 共拨出 2 亿 5 千 8 百万美元。因为此次研究将对受资企业的发展大有裨益,受该项拨款资助的企业在这三年期间也需自付共计至少 1 亿 7 千 2 百万美元的研究经费。
虽然美国卷土重来之势已显,中国方面并不会束手就擒。我国已将百亿亿次超级计算机及相关技术的研究写入国家「十三五」规划,并采用「三头并进」的方式,由中科曙光、国防科技大学及江南计算技术研究所来牵头研制百亿亿级超算的原型系统。「史上第一台百亿亿级超算」究竟花落谁家,且让我们拭目以待。
(原文参考:Ars Technica、Fast Company;极客公园Evan编译)