去年Hot Interconnects(HOTI 2024)会议上有一个比较有趣的pannel discussion,主题是"Bandwidth Scaling for AI Interconnect — More Wavelengths vs More Fibers"。这篇笔记主要整理下这个讨论中各方的观点,方便大家参考。感兴趣的朋友也可以看下原视频,视频链接为https://www.youtube.com/watch?v=hqpnL28ka0M。
在AI互联的大背景下,如何进一步扩展带宽?可以从不同的方向去努力,如下图所示,器件层面包括调制速率和编码方式的演进,系统层面通过增加光纤数和增加波长数。
来自IBM的Dan回顾了IBM在多通道VCSEL光模块的工作,他们在2011年实现了24Tx+24Rx的光模块,使用了4x12的多模光纤阵列。单通道速率20Gbps, 双向总带宽为0.96Tbps,如下图所示。
(图片来自文献1)
IBM最近几年与II-VI合作,研发基于VCSEL的CPO,即MOTION项目。MOTION项目分为2个阶段,第一阶段为单波长,共16通道,单通道速率为56Gbps, 双向总带宽1.8T,第二阶段为双波长版本(850nm/910nm),光纤数目不变,单通道速率为112Gbps, 双向总带宽为7.2T。
(图片来自文献2)
Dan提及了多波长方案的优劣势,如果波长通道间隔较小,需要额外的温度控制,波长数目越多,对温度控制的要求越高。从可靠性角度,多波长情形下激光器的备用设计会比较困难。对于多光纤方案,不同通道间的串扰很小,但光纤数目的增加,带来了空间布署上的限制,另外多通道光纤连接器的良率也会是个难题。目前成熟的商用光纤连接器,单模光纤为32通道,未来可以提升到48通道, 多模波导为72通道。整体上,Dan对于采用更多光纤还是波长方案,他没有偏向,但是强调成本会是一个非常重要的考量点,针对不同的芯片节点与应用场景,可能会采用不一样的方案。
Nubis公司的CTO Peter从不同的维度详细地对比了两种方案的优劣,首先他根据电接口的速率分为了slow/fast两类场景,slow对应于UCIe的情形,需要通过IO die转换到高速SerDes, 对应于多波长方案;fast对应于高速SerDes的场景,高速SerDes可以直驱TWMZM。 多波长方案中单路以8个波长估算,每个波长的速率为16Gbps, 而单波长方案的单路速率为100Gbps。两种方案的end-to-end能耗接近,都是10pJ/bit, 带宽密度略有区别,slow场景的带宽密度为300Gbps/mm, fast场景的带宽密度为500Gbps/mm。这里Peter的计算有点取巧,多波长方案里单通道速率可以是32Gbps,甚至更高,所以带宽密度上多波长方案应该更有优势。
对于Nubis特有的2维光引擎阵列来说,其带宽密度可以进一步提升,可以达到2Tbps/mm,如下图所示,目前Nubis已经有2排 tiling的产品。Nubis公司的技术方案细节可以参考Nubis公司的1.6T光引擎。
从成本角度出发,在短距互联的场景下,多光纤方案的光纤成本很低,10m的光纤成本为0.02$,不同场景下的光纤成本如下表所示。
Peter还特别对比了DR8/FR8 1.6T情形下的功耗,如下表所示,由于FR8场景下Mux/DeMux在链路中带来了额外的3dB插损,导致需要增加激光器功率,因此FR8的功耗比DR8方案略高,分别为8.5pJ/bit和6.3pJ/bit。
Mixx Technologies公司的CPO Rebecca,其报告中没有涉及到太多Mixx Tech公司的技术方案细节。该公司是一家初创公司,2023年成立,比较神秘,技术方向可能是wafer-scale的光互连与先进封装。Rebecca提及到在AI互联的场景下,对bandwidth、radix、density这三个指标提出了更高的要求,CPO似乎是最好的方案,但是为何CPO还没有被市场广泛接受?Rebecca认为封装方案的不可扩展性是主要挑战之一,Mixx Tech公司在努力解决这个问题。
在后面的讨论中,Rebecca提及到一个重要的点,目前提供多波长光源的公司大多为创业公司,其成本较高,如果没有很大量的需求,推广起来会比较有挑战。
来自Intel的Amit分享了Intel在硅光技术的roadmap, 其产品主要分为两个大类,一个是数据中心的光互连,包括可插拔光模块、芯片类业务,另一类是计算光互联,即Optical Compute Interconnect(OCI)。关于OCI的进展,可以参看这篇笔记 OFC2024: Intel发布最新optical IO进展,系统中含有8路光纤,每一路光纤包含8个波长的光信号,单波长的速率为32Gbps, 双向总带宽为4Tbps。
Amit也分析了可以增加带宽的几种方式,其中双偏振方案不太可取,增加了系统的复杂度,功耗、成本、带宽密度都没有提高。增加更多波长,对于Intel的硅光平台来说,是个很好的选择,实现相对容易。增加光纤数目,会增加光纤耦合的难度,带来良率与可靠性的降低。增加单通道信号速率与采用更高阶的编码方式,会增加电芯片、封装等方面的复杂性。Amit也提及到对于高Radix的应用,需要增加光纤数目。
Quintessent公司的CEO Alan Liu分享了自己的观点Life is better in color,首先每个光纤的界面都是一个可能出问题的点,增加光纤数会增加更多的相关风险,其次更多光纤会带来布署上的困难。而对于多波长方案,光源与波长控制都带来了新的挑战。Alan提出了一个折中的方案,在多光纤方案中同时引入DWDM波长,而Quintessent公司的频率梳光源可以应用在该场景。
Avicena公司的CEO Bardia则重点介绍了他们的uLED在optical IO领域的应用。其核心技术是基于GaN的LED阵列,共304通道,单通道速率为4Gbps, 双向总带宽为2.4Tbps,链路的能效比为1pJ/bit。为了实现如此多的光纤通道连接,Avicena公司采用了50um小间距的定制化光纤阵列。该方案的主要优势是成本与功耗,适用于不需要serdes的die-to-die并行连接。
大会的最后做了一个简单的投票,有43%的人选择了多波长方案,19%的人选择了多光纤方案。每家公司所表达的观点大都会为其公司的技术方案背书,强调自身方案的优势。对于AI互联带宽的扩展,以8路光纤为例,多光纤方案双向带宽可以达到3.2Tbps(200G*8*2), 多波长方案可以达到4Tbps(32Gbps*8*8*2),两者差别不大,多波长方案还有进一步提升的空间。
多光纤方案的难点主要集中在光纤的布署、光学封装难度的提升、更多光纤界面带来的良率问题,而多波长方案的难点是激光光源的成本问题、多波长的温度控制。对于硅光技术来说,如果想要发挥其集成度的优势,单颗芯片上势必会布署更多光通道,以此来提高带宽密度,多波长是首选方案。这也是为何当前的CPO产品都采用FR4方案,而在Optical IO场景则采用微环方案。诚然,多波长方案的挑战也比较大,但是其功耗的降低与带宽密度的提升也是非常诱人的。当然最终鹿死谁手,取决于市场的认可度、成本与良率等多个因素,在不同应用场景下可以选取不同的解决方案。
参考文献:
1. C. L. Schow, et.al., "A 24-Channel, 300 Gb/s, 8.2 pJ/bit, Full-Duplex Fiber-Coupled Optical Transceiver Module Based on a Single “Holey” CMOS IC", Jour. Light. Tech. 29,542(2011)
2. D. Kuchta, "Developments of VCSEL-based transceivers for Co-Packaging", OFC 2023, M4E.6