使用带有片上高速网络的FPGA的八大好处-EDN 电子技术设计

 尽管在FPGA中的按位来布线非常灵活，但其缺点是每个段都会给任何给定的信号通路增加延迟。需要在FPGA中进行长距离传输的信号会导致分段之间的连接延迟，从而降低了功能的性能。按位布线的另一个挑战是拥塞，它要求信号路径绕过拥塞，这会导致更多的延迟，并造成性能的进一步降低。

自从几十年前首次推出FPGA以来，每种新架构都继续在采用按位（bit-wise）的布线结构。虽然这种方法一直是成功的，但是随着高速通信标准的兴起，总是要求不断增加片上总线位宽，以支持这些新的数据速率。这种限制的一个后果是，设计人员经常花费大量的开发时间来尝试实现时序收敛，牺牲性能来为他们的设计布局布线。IC8ednc

传统的FPGA布线基于整个FPGA中水平和垂直方向上运行的多个独立分段互连线（segment），在水平和垂直布线的交叉点处带有开关盒（switch box）以实现通路的连接。通过这些独立段和开关盒可以在FPGA上构建从任何源到任何目的地的通路。FPGA布线的这种统一结构为实现任何逻辑功能提供了极大的灵活性，可用于FPGA逻辑阵列内的任何数据路径位宽。IC8ednc

尽管在FPGA中的按位来布线非常灵活，但其缺点是每个段都会给任何给定的信号通路增加延迟。需要在FPGA中进行长距离传输的信号会导致分段之间的连接延迟，从而降低了功能的性能。按位布线的另一个挑战是拥塞，它要求信号路径绕过拥塞，这会导致更多的延迟，并造成性能的进一步降低。IC8ednc

Achronix将此挑战视为一个开发全新架构的机会，以消除传统FPGA的设计挑战并提高系统性能。Achronix的解决方案是在传统分段式FPGA布线结构之上，再为其全新的Speedster7t FPGA系列器件创建一个革命性的二维（2D）高速片上网络（NoC）。Speedster7t NoC连接到所有片上高速接口：400G以太网、PCIe Gen5、GDDR6和DDR4 / 5的多个端口。IC8ednc

NoC的内部由一组行和列组成，它们在整个FPGA逻辑阵列中将网络数据流量从水平和垂直方向上进行分发。主NoC接入（NAP）点和从NoC接入点位于NoC的每一行和每一列交叉的位置。这些NAP可以是NoC和可编程逻辑阵列之间的源或目的地。IC8ednc

IC8ednc

图1：Speedster7t的片上网络（NoC）和接口IC8ednc

Ethernet：以太网IC8ednc

Security：安全性IC8ednc

Configuration：配置IC8ednc

each direction：每个方向IC8ednc

Speedster7t的NoC似乎只对FPGA内部的布线总线有所帮助；但是，这种新型架构可以显着提高设计人员的工作效率，实现全新的设计功能，并提供了轻松实现密集型数据处理应用的能力。下面列举了在效率提高、设计变更和性能提升方面最显著的八种应用场景。IC8ednc

在整个FPGA的逻辑阵列中简化高速数据分发

在传统的各种FPGA架构中，对连接到FPGA的片外存储器以及与之相连的外部高速数据源进行双向的读/写操作，需要数据在FPGA逻辑架构中经过一条较长且分段的路由路径。这种制约不仅限制了带宽，而且还会消耗在逻辑阵列中的用户设计所需的布线资源，这给FPGA设计人员在时序收敛方面带来了挑战，尤其是其他逻辑功能对器件利用率提高的时候。IC8ednc

使用Speedster7t的NoC将数据从外部源传输到FPGA和存储器，比使用传统的FPGA架构完成同样的工作要容易得多。Speedster7t NoC增强了FPGA阵列中传统的可编程互连，其中的NoC就像一个叠加在城市街道系统上的高速公路网络。虽然Speedster7t FPGA中传统的、可编程互连矩阵仍然适用于较慢的本地数据流量，但NoC可以处理更具挑战性的、高速的数据流。IC8ednc

NoC中的每一行或每一列都被实现为两个256位的、以2 Ghz固定时钟速率运行的单向数据通道。行具有东/西通道，列具有北/南通道，从而允许每个NoC行或列可以同时处理每个方向上512 Gbps的数据流量。总而言之，这些通道可以通过编写简单的Verilog或VHDL代码，在FPGA阵列中传输大量的数据，这些代码支持FPGA与NAP通信并连接到NoC高速公路网络上。IC8ednc

下图显示了NoC中各个点之间的数据传输。点1和点2的逻辑分别实例化了一个水平NAP。NAP可以发送和接收数据，但是每个单独的数据流都只是朝向一个方向。类似地，点3和点4的逻辑实例化了一个垂直NAP，并且可以在彼此之间发送数据流。IC8ednc

IC8ednc

图2：NoC上跨越器件逻辑阵列的数据流IC8ednc

自动将PCIe接口连接到存储器

在现在的FPGA中，设计人员在将高速接口连接至连有FPGA的存储器件进行读写时，必须考虑在器件内由于连接逻辑、进行布线、以及输入和输出信号的位置而产生的延迟。为了实现基本的接口功能，在设计过程中构建一个简单的存储接口通常就要花费大量的时间。IC8ednc

在Speedster7t架构中，将嵌入式PCIe Gen5接口连接到已连接的GDDR6或DDR4存储器这项工作，可由外围NoC自动处理，不需要设计人员编写任何RTL来建立这些连接。由于NoC连接到所有的外围IP接口，因此设计人员在将PCIe连接到GDDR6或DDR4的任何一个存储器接口时，都具有极大的灵活性。在下面的示例中，NoC能够提供足够的带宽，以持续支持PCIe Gen 5通信流连接到GDDR6内存的任意两个通道。这种高带宽连接无需消耗任何FPGA逻辑阵列资源即可实现，并且设计所需时间几乎为零。用户只需要启用PCIe和GDDR6接口即可在NoC上发送事务。IC8ednc

IC8ednc

图3：将PCIe直接连接到GDDR6接口IC8ednc

在独立的FPGA逻辑阵列模块上实现安全的局部重新配置

与其他基于静态随机存取存储器（SRAM）的FPGA一样，Speedster7t FPGA必须在通电时进行配置。Speedster7t FPGA具有一个片上FPGA配置单元（FCU），用于管理FPGA的初始配置和任何后续的局部重新配置。FCU还被连接到NoC，从而在配置FPGA时提供了更高的灵活性。使用NoC将配置位流传输到Speedster7t FCU，可以使用以前不可用的新方法来对FPGA进行配置。IC8ednc

在器件配置之前，Speedster7t NoC可用于某些读/写事务：PCIe至GDDR6、PCIe至DDR4、最后是PCIe至FCU。一旦PCIe接口被设置好，FPGA就可以通过PCIe接口接收配置比特流（bitstream），并将其发送给FCU以配置器件的其余部分。一旦到达FCU，配置比特流被写入FPGA可编程逻辑以配置器件。在器件被配置完成后，设计人员可以灵活地重新配置FPGA的某些部分（局部重新配置），以增加新的功能或提高加速性能，而无需关闭FPGA。IC8ednc

新的局部重新配置比特流可以通过PCIe接口发送到FCU，来重新配置器件的任何部分。当部分器件被重新配置时，通过在所需的区域中实例化一个NAP与NoC进行通信，任何进出新配置区域的数据都可以在Speedster7t1500器件中被轻松访问。NoC消除了传统FPGA局部重新配置的复杂性，因为用户不必担心围绕现有逻辑功能进行布线并影响性能，也不必担心由于该区域中的现有逻辑而无法访问某些器件的引脚。该功能节省了设计人员的时间，并在使用局部重新配置时提供了更大的灵活性。IC8ednc

此外，局部重新配置允许设计人员在工作负载变化时调整器件内的逻辑。例如，如果FPGA正在对输入的数据执行压缩算法，并且不再需要压缩，则主机CPU可以告诉FPGA重新配置，并加载经过优化的新设计以处理下一个工作负载。在器件仍处于运行状态时，局部重新配置可以在逻辑阵列集群（cluster）级别上独立完成。一个聪明的用例是开发一个具有自我感知的FPGA，该FPGA通过使用一个软CPU来监测器件操作以实时启动局部重新配置，来关闭逻辑从而节省功耗，或在FPGA架构中添加更多加速器模块，以临时处理大量的输入数据。这些功能为设计人员提供了前所未有的配置灵活性。IC8ednc

轻松支持硬件虚拟化

Speedster7t NoC通过利用NAP及其AXI接口，为设计人员提供了在单个FPGA中创建虚拟化安全硬件的独特能力。将可编程逻辑设计直接连接到NoC只需要在逻辑设计中实例化一个NAP及其AXI4接口即可。每个NAP还具有一个相关的地址转换表（ATT），该表将NAP上的逻辑地址转换为NoC上的物理地址。NAP的ATT允许可编程逻辑模块使用本地地址，同时将NoC定向事务映射到NoC全局存储映射所分配的地址。此项重新映射功能可以以多种方式使用。例如，它可以用于允许加速引擎的所有相同副本使用基于零的虚拟寻址，同时将数据流量从每个加速引擎发送到不同的物理存储位置。IC8ednc

每个ATT条目还包含一个访问保护位，以防止该节点访问被禁止的地址范围。该功能提供了一种重要的进程间安全机制，可防止同时在一个Speedster7t FPGA上运行的多个应用或多个任务干扰分配给其他应用或任务的存储模块。这种安全机制还有助于防止由于意外、偶然甚至是故意的存储地址冲突而导致系统崩溃。此外，设计人员可以使用此方案阻止逻辑功能访问整个存储设备。IC8ednc

IC8ednc

图4：使用Speedster7t NoC实现硬件虚拟化IC8ednc

Memory Space：存储空间IC8ednc

简化团队协同设计

基于团队的协同化FPGA设计并不是一个新的概念，但是底层架构和布线依赖于FPGA的其他部分，从而使得实现这个简单概念非常具有挑战性。一旦一个团队完成了设计的一部分，另一个设计其他部分的团队在尝试访问设备另一端的资源时，通常会遇到挑战，因为需要在已经完成的设计部分进行布线。同样，对一部分已进行设计布线的FPGA的区域或大小进行更改，可能会对所有其他FPGA设计模块产生连锁影响。IC8ednc

使用Speedster7t NoC，可以将设计模块映射到FPGA的任何部分，并且可以对资源分配进行更改，而不会影响其他FPGA模块的时序、布局或布线。由于器件中所有的NAP都支持每个设计模块无限制地访问NoC进行通信，因此使得基于团队的设计成为可能。因此，如果一个设计的某个部分在规模上有所增大，只要有足够的FPGA资源可用，数据流就会由NoC自动管理，从而使设计人员不必担心是否满足时序，以及对其他团队成员正在进行的设计的其他部分可能带来的后续影响。IC8ednc

IC8ednc

图5：致力于开发同一个FPGA的多个设计团队IC8ednc

Design Team：设计团队IC8ednc

通过独立的接口和逻辑验证加快设计速度

Speedster7t NoC的另一个独特功能是支持设计人员独立于用户逻辑去配置和验证I/O连接。例如，一个设计团队可以验证PCIe至GDDR6的接口，而另一个设计团队可以独立地验证内部逻辑功能。这种独立操作之所以能够实现，是因为NoC的外围部分连接了PCIe、GDDR6、DDR4和FCU，而不会消耗任何FPGA资源。这些连接可以在不使用任何HDL代码的情况下进行测试，从而可以同时独立地验证接口和逻辑。该功能消除了验证步骤之间的依赖关系，并实现了比传统FPGA架构更快的总体验证速度。IC8ednc

IC8ednc

图6：独立的I/O和逻辑验证IC8ednc

Design Team 1: I/O Verification：设计团队1：I/O验证IC8ednc

Design Team 2: Logic Verification：设计团队2：逻辑验证IC8ednc

采用分组模式（Packet Mode）简化400 Gbps以太网应用

在FPGA中实现高速400 Gbps以太网数据通路所面临的挑战是找到一种能够满足FPGA性能要求的总线位宽。对于400G以太网，全带宽运行的唯一可行选择是运行在724 MHz的1,024位总线，或运行在642 MHz的2,048位总线。如此宽的总线难以布线，因为它们在FPGA架构内消耗了大量的逻辑资源，即使在最先进的FPGA中也会在这样的速率要求下产生时序收敛挑战。IC8ednc

但是，在Speedster7t架构中，设计人员可以使用一种称为分组模式（packet mode）的新型处理模式，其中传入的以太网流被重新排列为四个较窄的32字节数据包，或者四条独立的以506 MHz频率运行的256位总线。这种模式的优点包括：当数据包结束时减少了字节的浪费，并且可以并行传输数据，而不必等到第一个数据包完成后才开始第二个数据包的传输。Speedster7t FPGA架构的设计旨在通过将以太网MAC直接连接到特定的NoC列，然后使用用户实例化的NAP从NoC列连接到逻辑阵列中，从而启用分组模式。使用NoC列，数据可以沿着该列被发送到FPGA架构中的任何位置，以便进一步处理。使用ACE设计工具配置分组模式，可大大简化用户设计，并在处理400 Gbps以太网数据流时提高了效率。IC8ednc

IC8ednc

图7：分组模式下的数据总线重排IC8ednc

Packet：数据包IC8ednc

Byte：字节IC8ednc

IC8ednc

图8：使用分组模式的400 Gbps以太网IC8ednc

降低逻辑占用并提高整体FPGA性能

与以前的传统FPGA相比，Speedster7t NoC具有更大的灵活性和更简单的设计方法。一个潜在的好处是NoC会自动减少给定设计所需的逻辑量，设计可以使用NoC代替FPGA逻辑阵列来进行模块间布线。ACE设计工具自动管理将设计单元连接到Speedster7t NoC的复杂性，因此设计人员无需编写HDL代码即可实现生产率。这种方法简化了实现时序收敛的耗时挑战，同时又不会由于FPGA逻辑阵列内的布线拥塞而降低整体应用性能。NoC还可以在不牺牲FPGA性能的情况下提高器件利用率，并且可以显着增加可用于计算的查找表（LUT）数量。IC8ednc

为了强调这一优势，我们创建了一个支持二维输入图像卷积的示例设计。每个模块都使用Speedster7t机器学习处理器（MLP）和BRAM模块，每个MLP在一个周期内执行12次int8乘法。将40个二维卷积模块链接在一起，以利用器件中几乎所有可用的BRAM和MLP资源。总共有40个二维卷积示例设计实例并行运行，使用了94％的MLP、97％的BRAM、但仅使用了8％的LUT。在总的可用LUT中，其余92％的LUT仍可被用于其他功能。IC8ednc

随着更多的实例被内置于器件中，单个单元模块的最高频率（F_MAX）不会降低。该设计能够保持性能，因为进出每个二维卷积模块的数据可以直接从连接到NoC的NAP访问GDDR6内存，而无需通过FPGA逻辑阵列进行布线。IC8ednc

IC8ednc

图9：一个带有40个二维卷积模块实例的Speedster7t器件

结论

Speedster7t NoC实现了FPGA设计过程的根本转变。Achronix是第一家实现二维片上网络（2D NoC）的FPGA公司，该2D NoC可以连接所有的系统接口和FPGA逻辑阵列。这种新型架构使Achronix公司的FPGA特别适用于高带宽应用，同时显著提高了设计人员的生产率。由于NoC管理了FPGA中设计的数据加速器和高速数据接口之间的所有网络功能，因此设计人员只需要设计其数据加速器并将其连接到NAP原语即可。ACE和NoC负责其他所有事务。通过使用NoC，FPGA设计人员将受益于：IC8ednc

在整个FPGA逻辑阵列中简化高速数据分发
自动将PCIe接口连接到存储器
在独立的FPGA逻辑阵列模块上实现安全的局部重新配置
轻松支持硬件虚拟化
简化团队化设计
通过独立的接口和逻辑验证加快设计速度
采用分组模式简化400 Gbps以太网应用
降低逻辑占用并提高整体FPGA性能

阅读全文，请先

上一篇： 多通道、高带宽嵌入式系统测试需要怎样的示波器？ 下一篇： 不是所有二维码阅读器都有同样的功能

微信扫一扫
一键转发
最前沿的电子设计资讯
请关注“电子技术设计微信公众号”

毫米波雷达与音频技术重塑汽车驾乘新体验汽车行业的发展正由两大创新领域主导：更为精准可靠的车内感知系统和高质量音频系统。传统方法如增加传感器或音频设备数量，虽可提升性能但会带来成本上升和复杂性增加的问题。
康佳特SMARC模块更新: 全新英特尔酷睿3处理器低功耗 SMARC 模块AI 加速和图形处理性能再次提升···
康佳特针对要求苛刻的实时应用推出新型高性能COM-HPC 基于英特尔酷睿 Bartlett Lake S处理器的模块性能全面提升···
英伟达或推中国特供RTX 5090 D，硬件与5090完全相同？据外媒曝光的消息，英伟达即将推出的50系显卡也会推出专门的中国特供版本，名称为GeForce RTX 5090 D···
兆易创新推出EtherCAT®从站控制芯片，工业自动化的卓越业界领先的半导体器件供应商兆易创新GigaDevice（股票代码 603986）宣布，正式推出EtherCAT®从站控制芯片···
瑞萨率先推出采用车规3nm制程的多域融合SoC 第五代R-Car SoC为集中式E/E架构，带来面向未来的多域融合解决方案，并支持Chiplet扩展···
艾迈斯欧司朗Belago红外LED，助力Supernode打造高精度避 Supernode与艾迈斯欧司朗携手，通过Belago红外LED实现精准扫地机器人避障；得益于Belago出色的红外补光功能，使扫地机器人能够大大提升其识别物体的能力，实现精准避障；Belago点阵照明器采用迷你封装，兼容标准无铅回流工艺，适用于各种3D传感平台，包括移动设备、物联网设备和机器人。
Nordic Semiconductor推出nRF54L15、nRF54L10 和 n 新型先进低功耗蓝牙SoC 带来更高效率和超强处理能力，为广泛物联网应用提高性能和灵活性···
AMD 宣布推出第二代 Versal Premium 系列，实现全新以业界首款采用 CXL 3.1 及 PCIe Gen6 并支持 LPDDR5 的 FPGA 器件扩展第二代 Versal 产品组合，助力快速连接、更高效数据迁移并释放更多内存···
英特尔加码“分散式 GPU 架构” 本月初，英特尔终于获得了其分散式GPU架构的专利，这很可能是第一个带有逻辑芯片的商用 GPU 架构，同时还允许对未用于处理工作负载的芯片进行电源门控。
AMD 以全球极快的纤薄尺寸电子交易加速卡扩展 Alveo AMD Alveo UL3422 加速卡为高频交易员在争夺最快交易执行的竞争中提供了优势，同时降低了进入门槛···
瑞萨推出高能效第四代R-Car车用SoC引领ADAS产品创新全新的R-Car V4M和R-Car V4H SoC产品面向大规模L2及L2+ADAS市场，同时保持现有R-Car产品的可扩展性与软件复用性···

机器人所需要的传感器有哪些？随着机器人技术的迭代升级，传感器的重要性将持续提升，其功能性、精度和适配性也将得到显著改进，作为机器人不可
2024年墨西哥市场分析，中国品牌崛起 2024年，墨西哥汽车市场以近10%的增长率展现了强劲的复苏势头，中国品牌的崛起为市场注入了新活力，当然现在的政
2025，大众汽车集团在中国如何转型？ 2024 年，大众汽车集团（中国）在复杂多变的市场环境中成功达成销量目标，向客户交付超过 290 万辆汽车，新能源汽车领
国产射频芯片公司汇总对于射频芯片这项卡脖子技术，国内很多公司在这方面努力，而且也做出了不错的成绩。一些射频芯片公司无论从研发
拆解报告：松下电器1200W电吹风松下EH-NW90电吹风内置10万转高速无刷电机，并具备三档风速和四档风温可选。电吹风内置纳诺怡技术，为秀发提供
拆解报告：白牌电动工具电池多功能放电转换器这款白牌多功能放电转换器适配得伟电动工具电池使用，将电动工具电池和放电转换器组装起来，即可组成移动电源和
拆解报告：MOMA猛玛LARK M2无线麦克风 MOMA猛玛LARK M2无线麦克风在外观方面，采用了极富创新的设计，提供了轻盈舒适的佩戴使用体验。发射器采用了夹
阿根廷2024年：销量下滑，北汽增长240.1%。 2024年阿根廷汽车市场在整体销量下滑的背景下，依然展现出多元化的发展趋势···
2025年第3周：全球最快四足机器人发布 2025年将成为机器人产业的关键时间点，业内预期27年人形机器人出货量可达50~100万台。从技术进步到供应链成熟
欧洲2024年汽车市场：微弱复苏和电动化加速并存 2024年，欧盟新车注册量小幅增长0.8%，达到约1060万辆，欧盟+英国+北欧国家的销量为1296.4万台，同比增长0.9%，整个欧
射频微波领域有哪些高质量期刊？今天我们结合网络上的资料一起整理一份射频微波领域的期刊列表，以便同学们投稿时可以选择···
拆解报告：Portal智能屏幕24W电源适配器 Portal智能屏幕电源适配器采用黑色直板机身，外观整洁，配有2米长黑色输出线。适配器采用美规固定插脚，支持100-2

性能飞跃！升级电流传感器NSM201x-P系列赋能汽车三电和光伏逆变器纳芯微推出全新车规级集成电流路径霍尔传感器NSM201x-P系列。该系列产品是对纳芯微已量产的NSM201x系列的完
意法半导体推出STSPIN32G0新列电机驱动器，满足工业自动化和家电市意法半导体STSPIN32系列集成化电机驱动器新增八款产品，满足电动工具、家用电器、工业自动化等应用的低成本、
Melexis推出性能先进的温度传感器，以红外技术创新实现电磁炉智能全球微电子工程公司Melexis宣布，推出专为电磁炉设计的非接触式红外温度传感器芯片MLX90617···
康佳特SMARC模块更新: 全新英特尔酷睿3处理器低功耗 SMARC 模块AI 加速和图形处理性能再次提升···
康佳特针对要求苛刻的实时应用推出新型高性能COM-HPC模块基于英特尔酷睿 Bartlett Lake S处理器的模块性能全面提升···
为汽车安全保驾护航，纳芯微推出基于AMR技术的ABS轮速传感器纳芯微宣布推出全新基于AMR（各向异性磁阻技术）的轮速传感器NSM41xx系列。该系列产品通过集成先进的磁性传感敏
Microchip推出全新Switchtec™ PCIe® 4.0 16通道交换机系列 PCI100x系列器件可为任何需要加速或专用计算的应用提供高性能和成本效益···
RK3576有多强？实测三屏八摄像头轻松搞定-米尔米尔基于他们推出的MYD-LR3576开发板开发了一个3屏异显，8路摄像头输入的DEMO，实测下来，RK3576轻松搞定了该任
SynQor®推荐先进的军用级三相输入UPS（UPS-1500-S-1U-T） SynQor的三相输入UPS电源能使单相负载在电源端呈现出符合MIL-STD-1399-300B标准的清洁、表现良好且几乎零反
村田开发超小尺寸、超低功耗的Type 2GQ GNSS模块，以匠心品质助在几年前，定位系统充斥于生活方方面面的情节还仅见于各式的科幻影片，而今具备这一功能的产品已经以各种形态步
瑞萨推出性能卓越的新型MOSFET 瑞萨全新晶圆技术可以帮助MOSFET实现导通电阻降低30%、栅漏电荷减少40%、封装尺寸缩小50%的目标···
加特兰集成 Cadence Tensilica ConnX 220 DSP 全面升级汽 ConnX 220 DSP 集成至基于下一代 Andes SoC 的加特兰雷达解决方案后，将带来显著优势，包括提高灵活性、

热门评论
最新评论

换一换

杂志声明

使用带有片上高速网络的FPGA的八大好处

在整个FPGA的逻辑阵列中简化高速数据分发

自动将PCIe接口连接到存储器

在独立的FPGA逻辑阵列模块上实现安全的局部重新配置

轻松支持硬件虚拟化

简化团队协同设计

通过独立的接口和逻辑验证加快设计速度

采用分组模式（Packet Mode）简化400 Gbps以太网应用

降低逻辑占用并提高整体FPGA性能

图9：一个带有40个二维卷积模块实例的Speedster7t器件

结论