改变智能芯片版图的黑科技-GDDR6/6X Combo IP-EDN 电子技术设计

 前言不久前，芯动科技Innosilicon推出的“风华1号”高性能GPU引起了市场高度关注，160-320G Pixel/s渲染、5-10T Flops浮点算力、AI算力最高50Tops。对于一款高性能GPU而言，算力是最核心的指标，而实现算力最基础的技术就是高带宽数据交换。如果说把GPU比作智能芯片中的战斗机，那么GDDR内存交互访问技术，就是配套的高速跑道了。GDDR6/6X接口技术成为各个大厂旗舰机的标配，这也是“风华1号”GPU能够在市场上领先竞争对手的重要原因之一！

▲GDDR6/6X Combo IP是风华GPU高带宽的核心技术ybSednc

今天，我们一起深入探讨一下GDDR内存技术在Soc中的重要性和发展历程，GDDR6/6X接口如何满足高算力GPU对高带宽数据交换的需求。ybSednc

ybSednc

GDDR和GPU的关系ybSednc

ybSednc

说起GDDR就必须要先讲GPU的发展历史，图形处理器GPU（Graphics processing unit），作为CPU的协处理器加速卡，早期主要对游戏、视频、图像等应用进行加速。ybSednc

图像的计算包含了顶点着色、屏幕映射、片元着色、裁剪、三角形遍历等大量数学运算，GPU在大规模、并发计算上对比CPU有着先天的优势。ybSednc

ybSednc

▲ GPU主要实现的算法结构ybSednc

ybSednc

GPU基于图形处理的架构上，有成百上千个计算核心，在高性能计算、并行计算、矩阵运算上有巨大优势，所以在需求的推动下，GPU自然成为了当下人工智能、高性能计算的硬件核心平台。ybSednc

ybSednc

▲ 与CPU相比，GPU的多核心计算架构有利于并行矩阵运算ybSednc

由于GPU的架构有成百上千个运算核心，因此并行计算的流水线数据流，并不适用传统的CPU+DDR数据访问模型，相应的GDDR技术也就应运而生。ybSednc

ybSednc

GDDR显存技术是主流先进GPU的标配ybSednc

ybSednc

先进工艺半导体迅猛发展点亮了人工智能、自动驾驶、神经网络、高性能游戏等五光十色的海量新应用。而GPU作为高性能、高并发的基础算力平台，让黄教主和苏妈成为这个舞台最耀眼的双星！ybSednc

ybSednc

▲ 英伟达的RTX、titan系列和AMD YES不断轰炸着大家的想象力天花板！ybSednc

当所有的高性能GPU都在追求极致算力时，内存数据交换逐渐成了整个SoC的瓶颈，高带宽高速率的内存交换技术，成为提升GPU运算效率的关键要点。ybSednc

ybSednc

▲ GDDR是GPU系统的核心数据交换技术ybSednc

在需求的刺激和推动下，GDDR技术得到了飞速发展，DDR5 6.4Gbps/pin还没大规模铺开，GDDR早已经迭代到GDDR6X 21Gbps/pin速率了。一般DDR5的位宽为32~64bit，单Chip带宽为72Gbps，而GDDR6的带宽则达到叹为观止的512Gbps。ybSednc

▲ GDDR的发展迅速超过了DDRybSednc

好马配好鞍，GDDR是GPU算力提升最重要的技术环节之一，为GPU高性能引擎铺平了高速赛道。ybSednc

ybSednc

▲ 法拉利在泥巴里也跑不动！ybSednc

GDDR主要优势ybSednc

ybSednc

1、GDDR和传统的DDR做对比ybSednc

常规的DDR系列，是8、16位的预取，array 32~128bit，而GDDR5/6X是16n的预取，实现单个array 256~512bit的大块内容存取，单次Access granularity 32~64Byte，系统数据宽度能达到384bit，以满足GPU对高带宽的需求。ybSednc

ybSednc

▲ GDDR的结构和速率有利于更大的总线宽度ybSednc

由于GDDR的颗粒array大，所以同等密度的情况下，列地址CA的宽度更小，如下图所示：ybSednc

ybSednc

▲ LPDDR4的列地址为10bit，而GDDDR6X的列地址为6~7bitybSednc

以上技术特征表明GDDR的内存单元更大，读取长度大，数据总线宽，与传统DDR呈现出不一样的鲜明特征。ybSednc

GDDR5~GDDR6X使用管脚170~180 pin，而传统的LPDDR4需要200个pin，当然比起DDR3 80~90pin还是有显著增长，但是获得的带宽收益更大。ybSednc

GDDR和DDR则各有千秋。ybSednc

GDDR在带宽、核心速率、管脚少的特点在GPU、NPU、AI等高并发计算等应用上有极大优势。DDR在随机访问、突发读写延时较小、高密度内存颗粒应用上，搭配CPU仍然更有优势。ybSednc

GPU发展一日千里，各种旗舰机层出不穷的同时，GDDR的进步也毫不逊色，甚至大有技高一筹势头。ybSednc

ybSednc

▲ 美光的GDDR颗粒在GPU旗舰机的搭载对比ybSednc

美光的主要显存颗粒在各个旗舰GPU上搭配应用，对于超大带宽的应用，美光在3个维度做出了对比。ybSednc

ybSednc

▲ 主流GDDR性能比较ybSednc

GDDR6X已经达到21Gbps/pin速率、1TB/S带宽，GPU大厂都表示“这么大的带宽，我要搞多高算力才配用这么大带宽的GDDR颗粒嘛？”真是GDDR有多大胆，GPU有就有多大产！ybSednc

美光于2020年9月宣布推出基于GDDR6X内存颗粒的超带宽解决方案产品，英伟达在高性能旗舰卡GeForce RTX 3090和GeForce RTX 3080 GPU中首次搭载了该显存颗粒。ybSednc

GDDR6X与英伟达GeForce RTX 系列GPU的搭配引领了最先进的图形处理设备，榨干了我们的想象力，也榨干了玩家们钱包!ybSednc

▲ GeForce RTX 3080 Ti + GDDR6X 12GB显存颗粒ybSednc

ybSednc

▲ 醒目的32GB GDDR6X喊着玩家快点打钱！ybSednc

ybSednc
ybSednc

芯动率先推出商用GDDR6/6X combo IPybSednc

为全球智能芯片提供加速服务ybSednc

作为数据交换基础的GDDR技术对于智能芯片发展的重要性不言而喻。自动驾驶、人工智能、游戏引擎等产品需求呈现井喷式增长，而与之配套的GDDR6/6X高带宽接口技术因为太过复杂、工艺先进，在商用IP市场上的选择并不多。ybSednc

因此，GDDR6/6x显存技术的发展需要颗粒厂商，IP技术公司和智能芯片公司共同的推动。ybSednc

2021年美光和芯动共同开发推出首个硅验证GDDR6/6X Combo IP，为更多的芯片公司提供了GDDR6/6X的高带宽核心技术！ybSednc

美光甚至表示：这个 IP 改变了人工智能的版图！ybSednc

芯动科技的GDDR6/6X PHY和Controller IP 基于14纳米工艺，应用PAM4信号技术，单pin速率高达 21 Gbps，256 位宽度，系统带宽超过5Tb/秒，满足了众多高带宽热门应用，如图像处理，游戏引擎、信号分析和人工智能等。ybSednc

ybSednc

▲ 全球首个商用GDDR6/6X Combo IP量产ybSednc

ybSednc

▲ 21Gbps GDDR6X PAM4 DQ眼图ybSednc

ybSednc

▲ GDDR6 WCK眼图 15GHZybSednc

ybSednc

▲ GDDR6 DQ眼图5GbpsybSednc

芯动科技也成为实现从GDDR5到GDDR6X全覆盖的IP厂商，GDDR6X这个节点更是成为第一款商用量产IP，为全球广泛高性能芯片公司提供了重要的接口技术！ybSednc

ybSednc

GDDR6/6X Combo IP技术解读ybSednc

信号技术

ybSednc

▲ PAM4信号技术框架-有4个相位-单cycle发送2bit信息ybSednc

ybSednc

▲ QDR技术实现了每个时钟采集4个信号，满足PAM4的信号速率要求ybSednc

和GDDR6X架构图对比

▲ GDDR6和GDDR6X的结构对比(请注意时钟和数据采样的倍频关系)ybSednc

GDDR6X和GDDR6最大不同的地方在于数据通道利用PAM4技术实现4倍的取样速率，实现21Gbps的单端速度。ybSednc

ybSednc

▲ GDDR6X-时钟频率和PAM4的倍频关系ybSednc

主要的技术难点ybSednc

的信号要求高速采样速率

ybSednc

▲ 低电压带来功耗优势，但是对信号提出苛刻的要求ybSednc

为了满足高带宽要求，GDDR6X将核心频率设定为2.5GHZ，对比传统DDR5(400~800MHZ核心频率)，为了实现预取的数据取样要求，换算2.5G x 16预取 ÷ 2 (PAM4) =20Gbps，于是I/O速率必须大于20Gbps才能完成采样。ybSednc

GDDR6/6X的VDDQ电压1.25/1.35v、速率16~21Gbps高速信号，对内部高速缓存、IO(125~135pins)的设计、走线、封装都提出了极为挑剔的要求，任何微小的噪音在经过衰减路径之后，都将导致信号眼图无法张开。ybSednc

ybSednc

▲ GDDR6(8Gbps)和GDDR6x PAM4(16Gbps)的DQ眼图对比ybSednc

ybSednc

▲ FinFet工艺对IP的设计有着极高的要求ybSednc

GDDR6/6X IP速率高，电压幅值低，必须使用先进FinFet工艺，先进工艺的验证成本高，单次流片要200~300万美元，设计收敛规则复杂，测试设备和成本高昂，对研发团队的经验有极高要求。ybSednc

芯动提供整套技术打包方案ybSednc

除了GDDR6/6X Combo PHY+Controller本身，设计企业仍然面临着复杂的布线、封装等问题，在量产之前每一个技术点都有风险，对此，芯动提供打包的一站式方案。ybSednc

芯动提供IP配套的IO走线、封装设计、PCB板级参考、信号完整性分析等，大大降低了用户的风险和集成时间，真正一站式将全球领先的GDDR6/6X技术部署到SoC中，实现超大带宽的内存访问。ybSednc

ybSednc

▲ PCB走线参考方案ybSednc

ybSednc

▲ 信号完整性分析-返回损耗和插入损耗ybSednc

ybSednc

结语ybSednc

芯动在先进工艺IP有着大量的量产和验证经验，从DDDR5/4/3/2到LPDDR5/4/3/2，以及领先的GDDR5/5X、GDDR6/6X、HBM3、Innolink Chiplet、32/56G Serders等等，芯动率先投入了巨大的研发力量进行量产验证，为广泛的高性能SoC提供了高速接口方案，为全球高性能芯片提供加速服务！ybSednc

ybSednc