4Gbps！HBM2E内存接口再现性能标杆-EDN 电子技术设计

 近年来，随着内存带宽逐渐成为影响人工智能持续增长的关键焦点领域之一，以高带宽内存(HBM、HBM2、HBM2E)和GDDR开始逐渐显露头角，成为搭配新一代AI/ML加速器和专用芯片的新型内存解决方案。

人工智能/机器学习(AI/ML)在全球范围内的迅速兴起，正推动着制造业、交通、医疗、教育和金融等各个领域的惊人发展。从2012年到2019年，人工智能训练能力增长了30万倍，平均每3.43个月翻一番，就是最有力的证明。支持这一发展速度需要的远不止摩尔定律，人工智能计算机硬件和软件的各个方面都需要不断的快速改进。ki0ednc

ki0ednc

2012-2019年，人工智能训练能力增长30万倍(图片来源：openai.com)ki0ednc

而中国作为全球人工智能发展最快的国家之一，正备受瞩目。根据德勤最新发布的统计预测数据显示，2020年全球人工智能市场规模将达到6800亿元人民币，复合增长率(CAGR)达26%。而中国人工智能市场的表现尤为突出，2019年末已经达到了510亿元人民币的市场规模，人工智能企业超过2600家。预计到2020年，中国AI市场规模将达到710亿元人民币，五年间(2015-2020)的复合增长率高达44.5%。ki0ednc

近年来，中国正在积极推动人工智能与实体经济的融合，从而实现产业的优化升级。2017年7月，国务院印发了《新一代人工智能发展规划》，这一规划与2015年5月发布的《中国制造2025》共同构成了中国人工智能战略的核心。这份具有里程碑意义的规划，对人工智能发展进行了战略性部署，力争到2030年把中国建设成为世界主要人工智能创新中心。此外，2020年还是中国的新基建元年，而人工智能作为一大重点板块，势必成为新基建的核心支撑。ki0ednc

内存带宽将是影响AI发展的关键因素

“内存带宽将成为人工智能持续增长的关键焦点领域之一。”Rambus IP核产品营销高级总监 Frank Ferro日前在接受《电子工程专辑》采访时表示，以先进的驾驶员辅助系统(ADAS)为例，L3级及更高级别系统的复杂数据处理需要超过200GB/s的内存带宽。这些高带宽是复杂AI/ML算法的基本需求，自驾过程中需要这些算法快速执行大量计算并安全地执行实时决策。而在L5级，如果车辆要能够独立地对交通标志和信号的动态环境做出反应，以便准确地预测汽车、卡车、自行车和行人的移动，将需要超过500GB/s的内存带宽。ki0ednc

ki0ednc

不同ADAS级别对存储带宽的要求(图片来源：anandtech.com)ki0ednc

鉴于此，高带宽内存(HBM、HBM2、HBM2E)和GDDR开始逐渐显露头角，成为搭配新一代AI/ML加速器和专用芯片的新型内存解决方案。他说过去几年内，HBM、HMC、PAM4等标准在市场上展开了激烈的竞争，但从目前的发展态势来看，还是HBM占据了更多的市场份额。不过他同时也坦承，由于汽车安全等级要求很高，考虑到HBM本身采用的是复杂的2.5D架构，再结合DRAM设备，所以目前为止在汽车市场上并没有得到突破性的应用，相比之下，GDDR反而会是比较好的解决方案。ki0ednc

高带宽内存(HBM)于2013年推出，是一种高性能3D堆栈SDRAM构架。与前一代产品一样，HBM2为每个堆栈包含最多8个内存芯片，同时将管脚传输速率翻倍，达到2Gbps。HBM2实现每个封装256GB/s的内存带宽(DRAM堆栈)，采用HBM2规格，每个封装支持高达8GB的容量。ki0ednc

2018年末，JEDEC宣布推出HBM2E规范，以支持增加的带宽和容量。当传输速率上升到每管脚3.6Gbps时，HBM2E可以实现每堆栈461GB/s的内存带宽。此外，HBM2E支持12个DRAM的堆栈，内存容量高达每堆栈24GB。ki0ednc

ki0ednc

单一DRAM堆栈的HBM2E内存系统(图片来源：Rambus)ki0ednc

HBM2E提供了达成巨大内存带宽的能力。连接到一个处理器的四块HBM2E内存堆栈将提供超过1.8TB/s的带宽。通过3D堆叠内存，可以以极小的空间实现高带宽和高容量需求。进一步，通过保持相对较低的数据传输速率，并使内存靠近处理器，总体系统功率得以维持在较低水位。ki0ednc

坦率的说，采用HBM的设计的代价是增加复杂性和成本，因此Frank Ferro并不建议在人工智能推理应用中使用HBM技术。然而，对于人工智能训练应用，HBM2E的优点使其成为一个更好的选择。它的性能非常出色，所增加的采用和制造成本可以透过节省的电路板空间和电力相互的缓解。在物理空间日益受限的数据中心环境中，HBM2E紧凑的体系结构提供了切实的好处。它的低功率意味着它的热负荷较低，在这种环境中，冷却成本通常是几个最大的运营成本之一。官方数据显示，Rambus IP系统以及IP产品在实验室经过了非常严苛的环境测试，确保从零下50到125摄氏度范围内均能够正常运行。ki0ednc

同时，Frank Ferro也不认为在芯片上采取分布式内存的方法会给HBM2E和GDDR长期的发展带来影响。原因在于尽管SRAM的速度和延迟性都高于DRAM，但在固定的芯片面积上能安装的SRAM数量却非常少，很多情况下为了满足人工智能训练的需求，一部分SRAM设备不得不装在芯片之外，这就是问题所在。但总体来说，这两种方案属于从不同角度出发解决同一个问题，两者之间是互补而非相互阻碍。ki0ednc

创纪录的性能

针对高带宽和低延迟进行了优化，Rambus HBM2E内存接口解决方案实现了创纪录的4Gbps性能。该解决方案由完全集成且经过验证的PHY和内存控制器IP组成，搭配SK Hynix 3.6Gbps运行速度的HBM2E DRAM，在物理层面实现了完整的集成互联，可以从单个HBM2E设备提供460GB/s的带宽，这也被Frank Ferro视作其HBM2E 产品的核心差异化优势之一。这意味着，除了提供完整的内存子系统、硬核PHY和时序收敛外，用户额外需要的系统级支持、工具套件和技术服务也都包含在内，集成难度和设计时间得以大幅度下降。ki0ednc

ki0ednc

Rambus HBM2E 4Gbps发送端眼图(图片来源：Rambus)ki0ednc

从2017年正式投产HBM解决方案以来，Rambus目前已经拥有第三代PHY和第二代内存控制器IP，全球范围内的成功案例项目超过50个。除了4Gbps HBM2E外，Rambus在其他不同工艺节点的产品还包括采用Global Foundries 12nm/14nm工艺的HBM2，速度为2.0 Gbps/s；采用Global Foundries 12LP+和三星14nm/11nm工艺的HBM2E产品。ki0ednc

不可否认，4.0Gbps是一个全新的行业标杆。在这一过程中，Rambus与SK hynix和Alchip展开了合作，采用台积电N7工艺和CoWoS®先进封装技术，实现了HBM2E 2.5D系统在硅中验证Rambus HBM2E PHY和内存控制器IP。Alchip与Rambus的工程团队共同设计，负责中介层和封装基板的设计。ki0ednc

“在我们提供的完整参考设计框架中，最重要的一点就是如何更好地对中介层进行完整的设计和表征化处理，以确保信号完整性。此外，我们还协助用户对每个信号通道进行仿真分析，通过Lab Station工具对内存子系统进行最优化设计，并提供在SI高速信号完整性和电源完整性方面的经验等等。”Frank Ferro说Rambus的初衷，不仅仅只是扮演IP供应商的角色，更是希望在系统层面降低用户设计难度。ki0ednc

信号完整性之所以如此重要，是因为HBM作为高速内存接口，在与中介层互联的过程中包括至少上千条不同的数据链路，必须要确保所有链路的物理空间得到良好的控制，整个信号的完整性也必须得到验证。因此，Rambus的做法如果从表征化层面来讲，不但需要对整个中介层的材料做出非常精细的选择，还要考虑渐进层的厚度以及整个电磁反射相关的物理参数，并在此基础上进行完整的分析和仿真，以实现信号一致性的处理。ki0ednc

ki0ednc

HBM2E内存接口子系统示例ki0ednc

燧原科技是Frank Ferro在发布会上提及的中国合作伙伴。在此次合作中，燧原科技为自己下一代人工智能训练芯片选择了Rambus HBM2 PHY和内存控制器IP，可实现2Tb/s的性能。而在今年4月和5月，长鑫存储、兆易创新两家公司还分别和Rambus签署了DRAM(动态随机存取存储)与RRAM(电阻式随机存取存储器，也可写作ReRAM)技术专利授权。ki0ednc

Rambus大中华区总经理 Raymond Su表示，通过对IP控制器公司Northwest Logic和Verimatrix安全IP业务部门的收购，Rambus实现了在内存IP层面提供一站式采购和“turn key”服务的目标。接下来，在中国市场，公司将紧密地与云厂商、OEM和ODM合作，推动整个内存产业生态系统的建设。ki0ednc

本文为电子技术设计原创文章，未经授权禁止转载。请尊重知识产权，违者本司保留追究责任的权利。

阅读全文，请先

邵乐峰

暂无简介...

进入专栏

缓存/存储技术接口/总线产业前沿

上一篇： 13年，那些我们看着长大的iPhone 下一篇： 苹果A15芯片将采用什么制程？5nm or 3nm？

微信扫一扫
一键转发
最前沿的电子设计资讯
请关注“电子技术设计微信公众号”

631.2亿美元的市场，创新制造工艺将为柔性电子带来什么？柔性电子设备的新型制造技术正在迅速涌现。有些人可能想知道它们是否比传统方法更好，以及它们什么时候会商业化，它们会影响电子设计工程师未来的创新吗？
雷击之后加强我的NAS备份，谨慎遵循3-2-1备份规则？在我之前报道被雷击事故时，我曾提到过，这次被雷击损坏的电子设备中包括一台网络存储设备(NAS)。这次挫折迫使我不能再忽视我数据备份防护中一个长期存在的漏洞···
2025值得关注的八大前沿技术 2024年临近尾声，在这一年又有哪些技术得到了突破？这些技术又将如何影响我们的生活？EDN分析师团队将继续从行业背景、技术思路和未来应用三个层面出发，为读者朋友们献上2025年最值得关注的前沿技术！
英特尔Ultra处理器，用普通内存也能超频到10000 MT/s+？目前内存超频的世界记录是12666MT/s，而想要达成这样的频率不光需要降低CPU频率，还需要辅助液氮等特殊的冷却方案，对内存进行降温。但已有主板可以在没有特殊冷却方案的情况下，超频到10000 MT/s以上···
英伟达或推中国特供RTX 5090 D，硬件与5090完全相同？据外媒曝光的消息，英伟达即将推出的50系显卡也会推出专门的中国特供版本，名称为GeForce RTX 5090 D···
普通CTP处理不过来？试试这个预累加器VFC处理方案 VFC的数字化是天然集成的，因此具有固有的高噪声抑制能力和可编程分辨率，遗憾的是，它的转换速度并不优秀···
看似简单的冲击激励石英振荡器，这几个细节要注意这个电路看似极其简单，但却表现出不同寻常的行为。它产生奇整数石英谐波的近似方波，包括其主频率···
CXL IP以两位数纳秒延迟扩展GPU内存纳米级超低延迟CXL控制器IP利用低成本存储介质，可扩展GPU系统内存至TB级……
硬核科技，赋能未来：解码芯片产业创新趋势在近日举办的E维智库第12届中国硬科技产业链创新趋势峰会暨百家媒体论坛上，邀请了来自艾迈斯欧司朗、Qorvo、RAMXEED（原富士通半导体）、飞凌微、安谋科技、清纯半导体等企业的多位行业专家，共同探讨芯片技术在各个领域的应用和发展方向···
为什么DAC和ADC对于扩展量子计算机至关重要？ DAC和ADC将在量子计算机扩展过程中发挥关键作用，加速量子计算机朝向更复杂的实际应用发展…
意法半导体推出Page EEPROM二合一存储器，提升智能边缘 EEPROM的字节级写操作灵活性，实现真正的两全其美···
采用RISC-V架构，紫光同芯发布全球首颗开放式架构安全芯近日，紫光同芯发布了全球首颗开放式架构安全芯片E450R，这款芯片不仅同时具有开放式硬件+软件架构，还获得了多项权威认证，标志着安全芯片领域的重大突破···

机器人所需要的传感器有哪些？随着机器人技术的迭代升级，传感器的重要性将持续提升，其功能性、精度和适配性也将得到显著改进，作为机器人不可
2024年墨西哥市场分析，中国品牌崛起 2024年，墨西哥汽车市场以近10%的增长率展现了强劲的复苏势头，中国品牌的崛起为市场注入了新活力，当然现在的政
2025，大众汽车集团在中国如何转型？ 2024 年，大众汽车集团（中国）在复杂多变的市场环境中成功达成销量目标，向客户交付超过 290 万辆汽车，新能源汽车领
国产射频芯片公司汇总对于射频芯片这项卡脖子技术，国内很多公司在这方面努力，而且也做出了不错的成绩。一些射频芯片公司无论从研发
拆解报告：松下电器1200W电吹风松下EH-NW90电吹风内置10万转高速无刷电机，并具备三档风速和四档风温可选。电吹风内置纳诺怡技术，为秀发提供
拆解报告：白牌电动工具电池多功能放电转换器这款白牌多功能放电转换器适配得伟电动工具电池使用，将电动工具电池和放电转换器组装起来，即可组成移动电源和
拆解报告：MOMA猛玛LARK M2无线麦克风 MOMA猛玛LARK M2无线麦克风在外观方面，采用了极富创新的设计，提供了轻盈舒适的佩戴使用体验。发射器采用了夹
阿根廷2024年：销量下滑，北汽增长240.1%。 2024年阿根廷汽车市场在整体销量下滑的背景下，依然展现出多元化的发展趋势···
2025年第3周：全球最快四足机器人发布 2025年将成为机器人产业的关键时间点，业内预期27年人形机器人出货量可达50~100万台。从技术进步到供应链成熟
欧洲2024年汽车市场：微弱复苏和电动化加速并存 2024年，欧盟新车注册量小幅增长0.8%，达到约1060万辆，欧盟+英国+北欧国家的销量为1296.4万台，同比增长0.9%，整个欧
射频微波领域有哪些高质量期刊？今天我们结合网络上的资料一起整理一份射频微波领域的期刊列表，以便同学们投稿时可以选择···
拆解报告：Portal智能屏幕24W电源适配器 Portal智能屏幕电源适配器采用黑色直板机身，外观整洁，配有2米长黑色输出线。适配器采用美规固定插脚，支持100-2

性能飞跃！升级电流传感器NSM201x-P系列赋能汽车三电和光伏逆变器纳芯微推出全新车规级集成电流路径霍尔传感器NSM201x-P系列。该系列产品是对纳芯微已量产的NSM201x系列的完
意法半导体推出STSPIN32G0新列电机驱动器，满足工业自动化和家电市意法半导体STSPIN32系列集成化电机驱动器新增八款产品，满足电动工具、家用电器、工业自动化等应用的低成本、
Melexis推出性能先进的温度传感器，以红外技术创新实现电磁炉智能全球微电子工程公司Melexis宣布，推出专为电磁炉设计的非接触式红外温度传感器芯片MLX90617···
康佳特SMARC模块更新: 全新英特尔酷睿3处理器低功耗 SMARC 模块AI 加速和图形处理性能再次提升···
康佳特针对要求苛刻的实时应用推出新型高性能COM-HPC模块基于英特尔酷睿 Bartlett Lake S处理器的模块性能全面提升···
为汽车安全保驾护航，纳芯微推出基于AMR技术的ABS轮速传感器纳芯微宣布推出全新基于AMR（各向异性磁阻技术）的轮速传感器NSM41xx系列。该系列产品通过集成先进的磁性传感敏
Microchip推出全新Switchtec™ PCIe® 4.0 16通道交换机系列 PCI100x系列器件可为任何需要加速或专用计算的应用提供高性能和成本效益···
RK3576有多强？实测三屏八摄像头轻松搞定-米尔米尔基于他们推出的MYD-LR3576开发板开发了一个3屏异显，8路摄像头输入的DEMO，实测下来，RK3576轻松搞定了该任
SynQor®推荐先进的军用级三相输入UPS（UPS-1500-S-1U-T） SynQor的三相输入UPS电源能使单相负载在电源端呈现出符合MIL-STD-1399-300B标准的清洁、表现良好且几乎零反
村田开发超小尺寸、超低功耗的Type 2GQ GNSS模块，以匠心品质助在几年前，定位系统充斥于生活方方面面的情节还仅见于各式的科幻影片，而今具备这一功能的产品已经以各种形态步
瑞萨推出性能卓越的新型MOSFET 瑞萨全新晶圆技术可以帮助MOSFET实现导通电阻降低30%、栅漏电荷减少40%、封装尺寸缩小50%的目标···
加特兰集成 Cadence Tensilica ConnX 220 DSP 全面升级汽 ConnX 220 DSP 集成至基于下一代 Andes SoC 的加特兰雷达解决方案后，将带来显著优势，包括提高灵活性、

热门评论
最新评论

换一换

杂志声明

4Gbps！HBM2E内存接口再现性能标杆

内存带宽将是影响AI发展的关键因素

创纪录的性能