在FPGA设计中如何充分利用NoC资源去支撑创新应用设计-EDN 电子技术设计

 一个运用NoC访问片外GDDR6的例子

日益增长的数据加速需求对硬件平台提出了越来越高的要求，FPGA作为一种可编程可定制化的高性能硬件发挥着越来越重要的作用。近年来，高端FPGA芯片采用了越来越多的Hard IP去提升FPGA外围的数据传输带宽以及存储器带宽。但是在FPGA内部，可编程逻辑部分随着工艺提升而不断进步的同时，内外部数据交换性能的提升并没有那么明显，所以FPGA内部数据的交换越来越成为数据传输的瓶颈。saeednc

为了解决这一问题，Achronix 在其最新基于台积电（TSMC）7nm FinFET工艺的Speedster7t FPGA器件中包含了革命性的创新型二维片上网络（2D NoC）。这种2D NoC如同在FPGA可编程逻辑结构之上运行的高速公路网络一样，为FPGA外部高速接口和内部可编程逻辑的数据传输提供了大约高达27Tbps的超高带宽。saeednc

作为Speedster7t FPGA器件中的重要创新之一，2D NoC为FPGA设计提供了几项重要优势，包括：saeednc

提高设计的性能，让FPGA内部的数据传输不再成为瓶颈。
节省FPGA可编程逻辑资源，简化逻辑设计，由NoC去替代传统的逻辑去做高速数据传输和数据总线管理。
增加了FPGA的布线资源，对于资源占用很高的设计有效地降低布局布线拥塞的风险。
实现真正的模块化设计，减小FPGA设计人员调试的工作量。

本文用了一个具体的FPGA设计案例，来体现上面提到的NoC在FPGA设计中的几项重要作用。这个设计的主要目的是展示FPGA内部的逻辑如何去访问片外的存储器。如图1所示，本设计包含8个读写模块，这8个读写模块需要访问8个GDDR6通道，这样就需要一个8x8的AXI interconnect模块，同时需要有跨时钟域的逻辑去将每个GDDR6用户接口时钟转换到逻辑主时钟。除了图1中的8个读写模块外，红色区域的逻辑都需要用FPGA的可编程逻辑去实现。saeednc

saeednc

图1 传统FPGA实现架构saeednc

对于AXI interconnect模块，我们采用Github上开源的AXI4总线连接器来实现，这个AXI4总线连接器将4个AXI4总线主设备连接到8个AXI4总线从设备，源代码可以在参考文献2的链接中下载。我们在这个代码的基础上进行扩展，增加到8个AXI4总线主设备连接到8个AXI4总线从设备，同时加上了跨时钟域逻辑。saeednc

为了进行对比，我们用另外一个设计，目的还是用这8个读写模块去访问8个GDDR6通道；不同的是，这次我们将8个读写模块连接到Achronix的Speedster7t FPGA器件的2D NoC上，然后通过2D NoC去访问8个GDDR6通道。如图2所示：saeednc

saeednc

图2 Speedster7t 1500的实现架构saeednc

首先，我们从资源和性能上做一个对比，如图3所示：saeednc

saeednc

图3 资源占用和性能对比saeednc

从资源占用上看，用AXI总线连接器的设计会比用2D NoC的设计占用多出很多的资源，以实现AXI interconnect还有跨时钟域的逻辑。这里还要说明一点，这个开源的AXI interconnect实现的是一种最简单的总线连接器，并不支持2D NoC所能提供的所有功能，比如地址表映射，优先级配置。saeednc

最重要的一点是AXI interconnect只支持阻塞访问（blocking），不支持非阻塞访问（non-blocking）。阻塞访问是指发起读或者写请求以后，要等到本次读或者写操作完成以后，才能发起下一次的读或者写请求。而非阻塞访问是指可以连续发起读或者写请求，而不用等待上次的读或者写操作完成。在提高GDDR6的访问效率上面，阻塞访问会让读写效率大大下降。saeednc

如果用FPGA的可编程逻辑去实现完整的2D NoC功能，包括64个接入点、128bit位宽和400MHz的速率，大概需要850 k LE，等效于占用了Speedster7t 1500 FPGA器件56%的可编程资源。而2D NoC则可以提供 80个接入点、256bit位宽和2GHz速率，而且不占用FPGA可编程逻辑。saeednc

从性能上来看，使用AXI总线连接器的设计只能跑到157MHz，而使用NoC的设计则能跑到500MHz。如果我们看一下设计后端的布局布线图，就会有更深刻的认识。图4所示的是使用AXI总线连接器的设计后端布局布线图。saeednc

saeednc

图4 使用AXI interconnect的设计后端布局布线图saeednc

从图中可以看到，因为GDDR6控制器分布在器件的两侧（图中彩色高亮的部分），所以AXI总线连接器的布局基本分布在器件的中间，既不能靠近左边，也不能靠近右边，所以这样就导致了性能上不去。如果增加pipeline的寄存器可以提高系统的性能，但是这样会占用大量的寄存器资源，同时会给GDDR的访问带来很大的延时。saeednc

如果再看一下图5中使用了2D NoC的布局布线图，就会有很明显的对比。首先，因为用2D NoC实现了AXI总线连接器和跨时钟域的模块，这就节省了大量的资源；另外，因为2D NoC遍布在整个器件上，一共有80个接入点，所以8个读写模块可以由工具放置在器件的任何地方，而不影响设计的性能。saeednc

saeednc

图5 使用2D NoC设计的后端布局布线图saeednc

从本设计的整个流程来看，使用2D NoC会极大的简化设计，提高性能，同时节省大量的资源；FPGA设计工程师可以花更多的精力在核心模块或者算法模块设计上面，把总线传输、外部接口访问仲裁和接口异步时钟域的转换等工作全部交给2D NoC吧。saeednc

责编：赵明灿saeednc

阅读全文，请先

FPGA 技术实例

上一篇： ARM对手，代号“Ariane”的RISC-V处理器做到4096核心：22nm工艺、222平方毫米 下一篇： 与芯片封装不同，看三大主流手机屏幕封装工艺：COG、COF和COP

微信扫一扫
一键转发
最前沿的电子设计资讯
请关注“电子技术设计微信公众号”

莱迪思聚焦低功耗中小型FPGA创新，并计划发展大规模FPGA 在最新的开发者大会上，莱迪思展示了其FPGA产品在广泛市场中的应用及未来发展的宏伟蓝图。据莱迪思亚太地区应用工程高级总监谢征帆介绍，随着莱迪思FPGA技术的广泛应用和产品差异化的推进，全球已有超过1万客户选择使用莱迪思的FPGA产品，部署的许可证数量也已超过3.5万。
第二代Versal Premium系列问世，AMD如何突破数据密集型继第一代Versal Premium系列自适应SoC之后，AMD于2024年11月12日发布了第二代Versal Premium系列产品，这是业界首款采用 CXL 3.1 及 PCIe Gen6 并支持 LPDDR5 的 FPGA 器件···
TPLD助力工程师在数分钟内完成分立式逻辑设计通过将多达40个逻辑元件集成到单个芯片上，工程师可以大幅减小电路板尺寸。使用德州仪器的InterConnect Studio工具，工程师无需软件知识即可在数分钟内轻松设计、仿真和配置德州仪器的可编程逻辑器件。
德州仪器(TI)全新可编程逻辑产品系列助力工程师在数分全新可编程逻辑器件和无代码设计工具可降低工程设计复杂性和成本、减少布板空间并缩短时间。
AMD发布第六代Spartan FPGA系列，重塑IoT时代的I/O密集日前，AMD正式发布了其第六代Spartan FPGA产品——Spartan UltraScale+ FPGA系列，该产品系列能为边缘端各种I/O密集型应用提供成本效益与高能效性能，在基于28纳米及以下制程技术的FPGA领域带来业界极高的I/O逻辑单元比，较之前代产品可带来高达30%的总功耗下降···
Achronix推出基于FPGA的加速自动语音识别解决方案提供超低延迟和极低错误率（WER）的实时流式语音转文本解决方案，可同时运行超过1000个并发语音流
Microchip FPGA采用量身定制的PolarFire FPGA和SoC解涵盖工业和通信领域以及智能嵌入式视觉、电机控制和光学接入技术等十个系列的协议栈，内容包括 IP、参考设计、开发套件、应用说明、演示指南等
AMD 以面向工业与商业应用的 Kria K24 SOM 及入 K24 SOM 和 KD240 套件支持为电机控制和数字信号处理应用设计高能效量产就绪型解决方案，并加速上市进程···
AMD Kria新品只有信用卡一半大，无需FPGA经验一小时内日前，AMD宣布推出AMD Kria™ K24系统模块（SOM）和KD240驱动器入门套件，这是Kria自适应SOM及开发者套件产品组合的最新产品。AMD Kria K24 SOM能以小尺寸提供高能效计算，面向成本敏感型工业和商业边缘应用···
通过AI加速，智能终端应用得到创新提升京微齐力采用Imagination AI加速器，助力打造Avatar高端产品系列第一颗新型智能加速芯片，为不同行业用户提供高性价比、强适配性的系统级平台解决方案
2023年嵌入式调查：随着工作负载的激增，更多IP将会被重复最新的2023年嵌入式调查已经出炉，它不仅显示了迅速增长的工作负载以及工程师如何应对处理，还展示了最常用的设计工具、操作系统和处理器。
Microchip发布业界能效最高的中端FPGA工业边缘协议栈这些新工具使得转向使用PolarFire FPGA和片上系统（SoC）FPGA变得比以往更容易

机器人所需要的传感器有哪些？随着机器人技术的迭代升级，传感器的重要性将持续提升，其功能性、精度和适配性也将得到显著改进，作为机器人不可
2024年墨西哥市场分析，中国品牌崛起 2024年，墨西哥汽车市场以近10%的增长率展现了强劲的复苏势头，中国品牌的崛起为市场注入了新活力，当然现在的政
2025，大众汽车集团在中国如何转型？ 2024 年，大众汽车集团（中国）在复杂多变的市场环境中成功达成销量目标，向客户交付超过 290 万辆汽车，新能源汽车领
国产射频芯片公司汇总对于射频芯片这项卡脖子技术，国内很多公司在这方面努力，而且也做出了不错的成绩。一些射频芯片公司无论从研发
拆解报告：松下电器1200W电吹风松下EH-NW90电吹风内置10万转高速无刷电机，并具备三档风速和四档风温可选。电吹风内置纳诺怡技术，为秀发提供
拆解报告：白牌电动工具电池多功能放电转换器这款白牌多功能放电转换器适配得伟电动工具电池使用，将电动工具电池和放电转换器组装起来，即可组成移动电源和
拆解报告：MOMA猛玛LARK M2无线麦克风 MOMA猛玛LARK M2无线麦克风在外观方面，采用了极富创新的设计，提供了轻盈舒适的佩戴使用体验。发射器采用了夹
阿根廷2024年：销量下滑，北汽增长240.1%。 2024年阿根廷汽车市场在整体销量下滑的背景下，依然展现出多元化的发展趋势···
2025年第3周：全球最快四足机器人发布 2025年将成为机器人产业的关键时间点，业内预期27年人形机器人出货量可达50~100万台。从技术进步到供应链成熟
欧洲2024年汽车市场：微弱复苏和电动化加速并存 2024年，欧盟新车注册量小幅增长0.8%，达到约1060万辆，欧盟+英国+北欧国家的销量为1296.4万台，同比增长0.9%，整个欧
射频微波领域有哪些高质量期刊？今天我们结合网络上的资料一起整理一份射频微波领域的期刊列表，以便同学们投稿时可以选择···
拆解报告：Portal智能屏幕24W电源适配器 Portal智能屏幕电源适配器采用黑色直板机身，外观整洁，配有2米长黑色输出线。适配器采用美规固定插脚，支持100-2

性能飞跃！升级电流传感器NSM201x-P系列赋能汽车三电和光伏逆变器纳芯微推出全新车规级集成电流路径霍尔传感器NSM201x-P系列。该系列产品是对纳芯微已量产的NSM201x系列的完
意法半导体推出STSPIN32G0新列电机驱动器，满足工业自动化和家电市意法半导体STSPIN32系列集成化电机驱动器新增八款产品，满足电动工具、家用电器、工业自动化等应用的低成本、
Melexis推出性能先进的温度传感器，以红外技术创新实现电磁炉智能全球微电子工程公司Melexis宣布，推出专为电磁炉设计的非接触式红外温度传感器芯片MLX90617···
康佳特SMARC模块更新: 全新英特尔酷睿3处理器低功耗 SMARC 模块AI 加速和图形处理性能再次提升···
康佳特针对要求苛刻的实时应用推出新型高性能COM-HPC模块基于英特尔酷睿 Bartlett Lake S处理器的模块性能全面提升···
为汽车安全保驾护航，纳芯微推出基于AMR技术的ABS轮速传感器纳芯微宣布推出全新基于AMR（各向异性磁阻技术）的轮速传感器NSM41xx系列。该系列产品通过集成先进的磁性传感敏
Microchip推出全新Switchtec™ PCIe® 4.0 16通道交换机系列 PCI100x系列器件可为任何需要加速或专用计算的应用提供高性能和成本效益···
RK3576有多强？实测三屏八摄像头轻松搞定-米尔米尔基于他们推出的MYD-LR3576开发板开发了一个3屏异显，8路摄像头输入的DEMO，实测下来，RK3576轻松搞定了该任
SynQor®推荐先进的军用级三相输入UPS（UPS-1500-S-1U-T） SynQor的三相输入UPS电源能使单相负载在电源端呈现出符合MIL-STD-1399-300B标准的清洁、表现良好且几乎零反
村田开发超小尺寸、超低功耗的Type 2GQ GNSS模块，以匠心品质助在几年前，定位系统充斥于生活方方面面的情节还仅见于各式的科幻影片，而今具备这一功能的产品已经以各种形态步
瑞萨推出性能卓越的新型MOSFET 瑞萨全新晶圆技术可以帮助MOSFET实现导通电阻降低30%、栅漏电荷减少40%、封装尺寸缩小50%的目标···
加特兰集成 Cadence Tensilica ConnX 220 DSP 全面升级汽 ConnX 220 DSP 集成至基于下一代 Andes SoC 的加特兰雷达解决方案后，将带来显著优势，包括提高灵活性、

热门评论
最新评论

换一换

杂志声明

在FPGA设计中如何充分利用NoC资源去支撑创新应用设计