芯耀辉软硬结合的智能DDR PHY训练技术-EDN 电子技术设计

 DDR接口速率越来越高，每一代产品都在挑战工艺的极限，对DDR PHY的训练要求也越来越严格。本文从新锐IP企业芯耀辉的角度，谈谈DDR PHY训练所面临的挑战，介绍芯耀辉DDR PHY训练的主要过程和优势，解释了芯耀辉如何解决DDR PHY训练中的问题。

引言

DDR接口速率越来越高，每一代产品都在挑战工艺的极限，对DDR PHY的训练要求也越来越严格。本文从新锐IP企业芯耀辉的角度，谈谈DDR PHY训练所面临的挑战，介绍芯耀辉DDR PHY训练的主要过程和优势，解释了芯耀辉如何解决DDR PHY训练中的问题。oZuednc

DDR PHY训练简介

高可靠性是系统级芯片SoC重要的质量和性能要求之一。SoC的复杂在于各个IP模块都对其产生至关重要的影响。从芯耀辉长期服务客户的经验来看，在客户的SoC设计中，访问DDR SDRAM是常见的需求，所以DDR PHY则成为了一个非常关键的IP，其能否稳定可靠的工作决定了整个SoC芯片的质量和可靠性。oZuednc

制定DDR协议的固态技术协会（JEDEC）标准组织并没有在规范中要求动态随机存取存储器（DRAM）需要具备调整输入输出信号延时的能力，于是通常DDR PHY就承担起了输入和输出两个方向的延时调整工作，这个调整的过程称为训练（training）。训练是为了使DDR PHY输出信号能符合固态技术协会标准的要求，DDR PHY通过调节发送端的延迟线（delay line），让DRAM颗粒能在接收端顺利地采样到控制信号和数据信号；相对应的，在DDR PHY端，通过调整内部接收端的延迟线，让DDR PHY能顺利地采样到DRAM颗粒的输出信号。从而在读写两个方向，DDR接口都能稳定可靠地工作。oZuednc

oZuednc

图1：DDR PHY承担了输入和输出两个方向的延时调整工作oZuednc

然而，随着DDR工作频率提高，DDR PHY训练的准确性和精度要求也随之提高。训练的准确性和精度决定了DDR系统能否稳定可靠地工作在较高的频率。oZuednc

DDR PHY训练所面临的挑战

DDR训练的种类繁多，每个训练的结果都不能出错。同时固态技术协会定义的训练序列都比较单一，如果只使用这些默认序列的话，训练结果在实际工作中并不是一个最优值。oZuednc

目前绝大多数DDR PHY都采用硬件训练的方式，如果硬件算法有问题，会导致训练出错，DDR无法正常稳定地工作，导致整个SoC的失败。同时，硬件训练模式很难支持复杂的训练序列和训练算法，从而无法得到训练结果的最优解。oZuednc

芯耀辉的DDR PHY采用软硬件结合的固件（firmware）训练方式跳出了上述DDR PHY训练模式的固定思维。oZuednc

芯耀辉DDR PHY在训练上的优势

解决写入均衡（write leveling）的难题

写入均衡是为了计算出flyby结构下命令通路和数据通路的走线延迟的差值，在DDR PHY中把这个差值补偿到数据通路上，从而最终让数据通路和命令通路的延迟达到一致。oZuednc

oZuednc

图2：DDR flyby拓扑结构示意图oZuednc

在实际的应用中，命令（command）路径上的延时会超过数据（DQ）路径的延时。假设路径差值 = 命令路径延时 – 数据路径延时，一般路径差值在0～5个时钟周期之间。可以把路径差值分为整数部分和小数部分（单位是0.5个时钟周期）。oZuednc

oZuednc

图3：命令路径延时、数据路径延时和路径差值oZuednc

根据固态技术协会标准（如JESD79-4C）的写入均衡的要求，DRAM在写入均衡模式下会用DDR PHY发送过来的DQS沿去采样CK，并把采样的值通过DQ返回给DDR PHY。oZuednc

oZuednc

图4：写入均衡模式下调整DQS时延的示意图oZuednc

通过该训练，DDR PHY可以计算出命令与数据路径延时差值的小数部分，却没有办法训练出命令与数据路径延时差值的整数部分（把DQS多延迟一个时钟周期或者少延迟一个时钟周期，用DQS采样CK的采样值是相同的）。oZuednc

为了解决这个问题，通常会根据版图设计估算出大概的路径差值，从而自行得到路径差值的整数部分，直接配置到DDR PHY的寄存器中。这种做法在频率比较低、量产一致性比较好的时候问题不大。但在大规模量产的时候，如果平台之间的不一致性超过一个时钟周期（LPDDR4最高频下周期为468ps）的话，上述直接配置整数部分的方法就没法进行工作了，必然会导致部分芯片无法正常工作。oZuednc

芯耀辉采用固件的训练方式，通过DDR写操作时特殊调节方法，能够帮助客户计算出路径差值整数加小数部分，无需客户根据版图设计估算路径差值范围。oZuednc

oZuednc

图5：路径差值整数部分训练和小数部分训练oZuednc

过滤训练时DQS的高阻态

读操作时，DQS信号在前导（preamble）前是高阻态，同时DQS信号的前导部分也不能达到最稳定的状态，所以需要训练出读DQS的gate信号来过滤掉前面的高阻态和前导，恰好得到整个读突发（Read Burst）操作的有效DQS，这就是读DQS gate训练。oZuednc

芯耀辉采用特定的方法，在训练的时候，排除不稳定DQS的干扰，用读DQS的gate信号得到读突发数据对应的第一个DQS的上升沿位置，从而得到gate的位置。oZuednc

图6：读DQS gate训练oZuednc

延迟DQS提高读DQ训练的准确性

一般在DDR PHY中没有这个训练，因为该训练不是固态技术协会标准要求的，可是在实际应用中，这个训练却有着比较重要的意义。oZuednc

oZuednc

图7：LPDDR4突发读（来源固态技术协会标准JESD209-4B）oZuednc

读DQS和读DQ之间的偏差为tDQSQ，这个值的范围是0~0.18UI（在高频下约为0~42ps）。读训练的时候，采用延迟DQS的方法，找到DQ的左右窗口，最后把DQS放在DQ窗口的中心点。由于DDR PHY内部的DQS-DQ延迟偏差、封装的pad延迟偏差、以及PCB走线偏差，虽然DRAM端输出的tDQSQ为正数（DQ的延迟比DQS大），但在DDR PHY内部看到的tDQSQ却可能为负数（DDR PHY内部DQS的延迟比DQ大），如图8上半部分所示。oZuednc

在这种情况下，即使DQS的延迟为0，DQS也落在DQ的窗口内，PHY内部会通过从0延迟开始增加DQS的延迟来搜索DQ的左右窗口，这样必然导致最终搜索到的DQ的窗口比实际的窗口要小，读训练后的DQS的采样点不在DQ的正中间，而在偏右的位置，最终读余量（margin）变小。oZuednc

芯耀辉通过特定的方法，能让每个DQ的窗口都在DQS右边，这样做读训练的时候，可以搜索到DQ的完整窗口，提高了读训练的准确性，提升DDR的读性能。oZuednc

oZuednc

图8：Read DQ skew trainingoZuednc

用固件的训练方法获取读数据眼图（Read data eye）的优化值

读数据眼图训练通过延迟读DQS的方法，把读DQS放在DQ窗口的中间。目前最大的问题是固态技术协会标准对读数据眼图的读序列定义的比较简单，比如对于DDR4，定义的序列是01010101的固定序列。因为高速信号的符号间干扰以及信号反射，在不同的读序列的情况下DQ窗口是有差异的，所以采用简单固定的序列并不能很好地覆盖实际的使用场景，导致训练结果在实际工作时并不是一个优化值。oZuednc

芯耀辉采用固件的训练方法，可以设置不同的范式（pattern），如PRBS范式、特殊设计的扫频范式等。显然此类范式能更好地反映数据通道的特性，因为它包含了高频、中频、低频信息，以及长0和长1带来的码间串扰等问题，可以获得较优的训练结果，从而得到一个能覆盖实际工作场景的可靠值。oZuednc

二维训练模式下优化的参考电压（Vref）电压和地址线（CA）延迟

LPDDR3中引入了地址线训练，DRAM把采样到的地址信号通过数据通路反馈给DDR PHY，DDR PHY可以通过这个反馈去调节地址线的延迟。在LPDDR4中，还加入了地址线参考电压的训练，所以不仅需要调节地址线的延迟，还需要找到一个最优的参考电压值。传统使用硬件训练的方式在面对这种两个维度的训练时就会显得捉襟见肘，同时硬件算法也没法做得太复杂。oZuednc

芯耀辉采用固件的二维训练模式，可以绘制出完整的以地址线延迟为横坐标和以参考电压为纵坐标的二维图像，从而得到较优的参考电压和对应的地址线延迟。oZuednc

二维训练模式下优化的DQ参考电压和DQ延迟

DDR4的固态技术协会标准中引入了DQ参考电压，可是对于如何训练并没有给出说明和支持，所以大多数DDR PHY并不支持DDR4的DQ参考电压训练，只能配置一个固定参考电压值。oZuednc

LPDDR4的固态技术协会标准增加了写DQS-DQ训练（调整写DQ相对于写DQS的相位）和DQ参考电压训练协议上的支持。oZuednc

芯耀辉采用固件的方式，不仅支持了DDR4的DQ参考电压训练，同时对于LPDDR4的写DQS-DQ和DQ参考电压训练，也采用了固件的二维训练模式，绘制出完整的以DQ延迟为横坐标和以DQ参考电压为纵坐标的二维图像，在整个二维图像中找到较优的DQ参考电压和对应的DQ延迟。oZuednc

总结

随着工艺节点的提升和DDR颗粒技术的演进，DDR的工作频率越来越高，DDR颗粒的训练要求也越来越高。同时对于DDR PHY来说，内部的模拟电路（FFE，DFE等）随着频率的提升也需要做各种高精度的训练。芯耀辉采用软硬结合的智能训练方法不仅可以支持DDR颗粒的各种必要的复杂训练，也同时可以支持DDR PHY内部模拟电路的各种训练。通过不断优化训练算法，持续挑战每一代DDR产品的速率极限。oZuednc

百尺竿头，更进一步，芯耀辉人必将以提供高性能的接口类IP，高品质的设计服务为己任，奋发图强，携手广大芯片设计公司推出更优秀的产品，助力中国芯片产业的发展。oZuednc

阅读全文，请先

缓存/存储技术 EDA/IP/IC设计人工智能新品

上一篇： Teledyne e2v发布低成本、高性能的四线CMOS传感器系列 下一篇： Teledyne e2v宣布为使用四通道ADC器件的信号链推出多功能开发套件

微信扫一扫
一键转发
最前沿的电子设计资讯
请关注“电子技术设计微信公众号”

631.2亿美元的市场，创新制造工艺将为柔性电子带来什么？柔性电子设备的新型制造技术正在迅速涌现。有些人可能想知道它们是否比传统方法更好，以及它们什么时候会商业化，它们会影响电子设计工程师未来的创新吗？
雷击之后加强我的NAS备份，谨慎遵循3-2-1备份规则？在我之前报道被雷击事故时，我曾提到过，这次被雷击损坏的电子设备中包括一台网络存储设备(NAS)。这次挫折迫使我不能再忽视我数据备份防护中一个长期存在的漏洞···
2025值得关注的八大前沿技术 2024年临近尾声，在这一年又有哪些技术得到了突破？这些技术又将如何影响我们的生活？EDN分析师团队将继续从行业背景、技术思路和未来应用三个层面出发，为读者朋友们献上2025年最值得关注的前沿技术！
英特尔Ultra处理器，用普通内存也能超频到10000 MT/s+？目前内存超频的世界记录是12666MT/s，而想要达成这样的频率不光需要降低CPU频率，还需要辅助液氮等特殊的冷却方案，对内存进行降温。但已有主板可以在没有特殊冷却方案的情况下，超频到10000 MT/s以上···
英伟达或推中国特供RTX 5090 D，硬件与5090完全相同？据外媒曝光的消息，英伟达即将推出的50系显卡也会推出专门的中国特供版本，名称为GeForce RTX 5090 D···
普通CTP处理不过来？试试这个预累加器VFC处理方案 VFC的数字化是天然集成的，因此具有固有的高噪声抑制能力和可编程分辨率，遗憾的是，它的转换速度并不优秀···
看似简单的冲击激励石英振荡器，这几个细节要注意这个电路看似极其简单，但却表现出不同寻常的行为。它产生奇整数石英谐波的近似方波，包括其主频率···
CXL IP以两位数纳秒延迟扩展GPU内存纳米级超低延迟CXL控制器IP利用低成本存储介质，可扩展GPU系统内存至TB级……
硬核科技，赋能未来：解码芯片产业创新趋势在近日举办的E维智库第12届中国硬科技产业链创新趋势峰会暨百家媒体论坛上，邀请了来自艾迈斯欧司朗、Qorvo、RAMXEED（原富士通半导体）、飞凌微、安谋科技、清纯半导体等企业的多位行业专家，共同探讨芯片技术在各个领域的应用和发展方向···
为什么DAC和ADC对于扩展量子计算机至关重要？ DAC和ADC将在量子计算机扩展过程中发挥关键作用，加速量子计算机朝向更复杂的实际应用发展…
意法半导体推出Page EEPROM二合一存储器，提升智能边缘 EEPROM的字节级写操作灵活性，实现真正的两全其美···
采用RISC-V架构，紫光同芯发布全球首颗开放式架构安全芯近日，紫光同芯发布了全球首颗开放式架构安全芯片E450R，这款芯片不仅同时具有开放式硬件+软件架构，还获得了多项权威认证，标志着安全芯片领域的重大突破···

热门评论
最新评论

换一换

杂志声明

芯耀辉软硬结合的智能DDR PHY训练技术

引言

DDR PHY训练简介

DDR PHY训练所面临的挑战

芯耀辉DDR PHY在训练上的优势

解决写入均衡（write leveling）的难题

过滤训练时DQS的高阻态

延迟DQS提高读DQ训练的准确性

用固件的训练方法获取读数据眼图（Read data eye）的优化值

二维训练模式下优化的参考电压（Vref）电压和地址线（CA）延迟

二维训练模式下优化的DQ参考电压和DQ延迟

总结