OFC2023上,谷歌详细介绍了其内部项目Apollo, 在其数据中心大范围部署MEMS型光开关(Optical Circuit Switch, 简称OCS),带来了数据中心网络架构的重大变革。小豆芽这里对相关技术做一个整理,供大家参考。
下图中左图是传统的数据中心网络结构图,也就是所谓的spine-leaf结构,其中Spine层主要是电网络交换机(electronic packet switch, 简称EPS), SP与每一个AB相连。AB(aggregation block)层为汇聚层,与TOR 交换机相连。Apollo项目直接将SP层的EPS替换为OCS, 如右图所示。
(图片来自文献1)
传统架构中信号经过Spine层会涉及到电信号与光信号的多次转换,每一个数据包的信号处理,都会带来非常大的功耗开销,并且增加了数据的延迟。由于网络数据量的剧增,每隔两三年,Spine层都需要进行一次升级,带来了巨大的成本开销。谷歌使用OCS替换EPS的出发点,主要是为了降低功耗与成本。
Google的OCS称为Palomar,其内部结构如下图所示,输入输出为两个光纤准直器阵列(fiber collimator array), 光纤准直器包括光纤阵列和微透镜阵列,输入输出均为136个通道。光通过光纤进入到OCS系统后,先后经过两个2D的MEMS阵列。每个MEMS阵列含有136个平面镜,用于精确调节光的传播方向。信号光的传播方向为下图中的绿线。此外系统中还包含两个监控通道,对应下图中的红色粗线。监控通道使用850nm波长的光,经过MEMS反射后进入到监控相机处。通过图像处理来反馈控制MEMS阵列,优化链路插损。
(图片来自文献1)
Palomar可实现136个光路间的任意切换,信号可以双向传播,其最大功耗为108W,并且工作在非常宽的波长范围内。Palomar的插损在2dB以下,回损的典型值为-46dB,如下图所示。
(图片来自文献2)
谷歌还在链路中部署了光环形器(optical circulator),将带宽增加一倍,如下图所示。
(图片来自文献2)
相比于EPS, OCS带来了数据中心网络结构的革新,其主要特征有:
1)可配置的网络拓扑结构
根据实际网络中的数据量,灵活地选择数据链路。以下图为例,A、B和C节点都有500个端口,AB间的模块速率为200Gbps,AC和BC间的模块速率为100Gbps。如果按照传统的网络结构配置,两个节点之间分别有250个链路,因此AB间的最大数据量为50T, AC和BC的最大数据量为25T。但是实际需求为AB间的数据量为55T,传统网络配置无法完成该需求。但是如果采用OCS,可以动态地调整节点间链路的数量,AB的链路数调整为300,而AC和BC的链路数调整为200,此时AB间的最大数据量为60T,可以满足需求。AC之间的数据一部分通过节点B进行传输。
(图片来自文献3)
2)灵活的网络拓展与升级
采用OCS,数据中心网络可以灵活地进行网络拓展,与原有的节点形成互联,而不影响业务,如下图所示。
(图片来自文献2)
当网络中部署更高速率的光模块和交换机时,原有的低速器件可以继续使用,降低一部分成本,如下图所示。
(图片来自文献3)
OCS也被部署到Google最新的TPU v4集群中,如下图所示,64个TPU芯片形成一个cube, 最外侧六个面上的TPU与48个OCS相连,内部的TPU之间通过电缆连接。48个OCS可以与4096个TPU芯片相连,形成一个大型的超算系统。
(图片来自文献4)
通过在TPU超算系统中部署OCS, 系统的稳定性得以大幅提高。如果没有 使用OCS,主机可用性(host availability)必须达到 99.9%,才能提供合理的切片吞吐量。使用OCS以后,对于大多数切片大小,主机可用性只需达到99.0%即可。如果某个CPU出现故障,可以动态配置网络,绕过该故障芯片。
(图片来自文献4)
部署OCS之后,可以根据实际计算任务中的数据流,灵活地配置TPU的互联Torus结构,提高系统的整体性能,如下图所示。
(图片来自文献4)
此外还可以根据计算任务的大小,灵活地选取所需调用TPU的切片大小,提高计算效率。
OCS的成本占整个TPU超算系统的5%,功耗占整个系统的3%。而对于Apollo系统,OCS降低30%的成本和40%的功耗。Google简单对比了OCS和NV link, 功耗与成本上OCS都占优。
除了功耗与成本的显著优势之外,对于数据中心来说,OCS取代了传统的spine层,可以根据需求动态地配置网络拓扑结构。对于AI集群来说,OCS可以动态配置计算芯片间的连接关系,尤其当下AI大模型非常火爆,多卡之间的互联得到了越来越多的关注,如何构建大型的算力网络会是AI发展的重要发展方向。谷歌在OCS上投入了多年,最初采用外购的MEMS芯片,但是性能达不到要求后谷歌开始自研。虽然该方案不被产业界看好,谷歌十年磨一剑,不断提高OCS的性能,现在已经在其数据中心大范围部署OCS。
参考文献:
R. Urata, et.al., "Apollo: Large-Scale Deployment of Optical Circuit Switching for Datacenter Networking", OFC 2023 M2G.1
R. Urata, et.al., "Mission Apollo: Landing Optical Circuit Switching at Datacenter Scale"
L. Poutievski, et.al., "Jupiter Evolving: Transforming Google’s Datacenter Network via Optical Circuit Switches and Software-Defined Networking"
N. Jouppi, et.al., "TPU v4: An Optically Reconfigurable Supercomputer for Machine Learning with Hardware Support for Embeddings"