机器学习实战：GNN（图神经网络）加速器的FPGA解决方案-EDN 电子技术设计

 应用Achronix Speedster7t FPGA设计高能效、可扩展的GNN加速器

1. 概述

得益于大数据的兴起以及算力的快速提升，机器学习技术在近年取得了革命性的发展。在图像分类、语音识别、自然语言处理等机器学习任务中，数据为大小维度确定且排列有序的欧氏（Euclidean）数据。然而，越来越多的现实场景中，数据是以图（Graph）这种复杂的非欧氏数据来表示的。Graph不但包含数据，也包含数据之间的依赖关系，比如社交网络、蛋白质分子结构、电商平台客户数据等等。数据复杂度的提升，对传统的机器学习算法设计以及其实现技术带来了严峻的挑战。在此背景之下，诸多基于Graph的新型机器学习算法—GNN（图神经网络），在学术界和产业界不断的涌现出来。kuUednc

GNN对算力和存储器的要求非常高，其算法的软件实现方式非常低效，所以业界对GNN的硬件加速有着非常迫切的需求。我们知道传统的CNN（卷积神经网络网络）硬件加速方案已经有非常多的解决方案；但是，GNN的硬件加速尚未得到充分的讨论和研究，在本文撰写之时，Google和百度皆无法搜索到关于GNN硬件加速的中文研究。本文的撰写动机，旨在将国外最新的GNN算法、加速技术研究、以及笔者对GNN的FPGA加速技术的探讨相结合起来，以全景图的形式展现给读者。kuUednc

2. GNN 简介

GNN的架构在宏观层面有着很多与传统CNN类似的地方，比如卷积层、Polling、激活函数、机器学习处理器（MLP）和FC层等等模块，都会在GNN中得以应用。下图展示了一个比较简单的GNN架构。kuUednc

kuUednc

图 1：典型的GNN架构（来源：https://arxiv.org/abs/1901.00596）kuUednc

但是， GNN中的Graph数据卷积计算与传统CNN中的2D卷积计算是不同的。以图2为例，针对红色目标节点的卷积计算，其过程如下：kuUednc

Graph卷积：以邻居函数采样周边节点特征并计算均值，其邻居节点数量不确定且无序（非欧氏数据）。
2D卷积：以卷积核采样周边节点特征并计算加权平均值，其邻居节点数量确定且有序（欧氏数据）。

kuUednc

图 2： Graph卷积和2D卷积（来源：https://arxiv.org/abs/1901.00596）kuUednc

3. GraphSAGE算法简介

学术界已对GNN算法进行了非常多的研究讨论，并提出了数目可观的创新实现方式。其中，斯坦福大学在2017年提出的GraphSAGE是一种用于预测大型图中动态新增未知节点类型的归纳式表征学习算法，特别针对节点数量巨大、且节点特征丰富的图做了优化。如下图所示，GraphSAGE计算过程可分为三个主要步骤：kuUednc

kuUednc

图 3：GraphSAGE算法的视觉表述（来源：http://snap.stanford.edu/graphsage）kuUednc

邻节点采样：用于降低复杂度，一般采样2层，每一层采样若干节点
聚合：用于生成目标节点的embedding，即graph的低维向量表征
预测：将embedding作为全连接层的输入，预测目标节点d的标签

为了在FPGA中实现GraphSAGE算法加速，我们需要知悉其数学模型，以便将算法映射到不同的逻辑模块中。下图所示的代码阐述了本算法的数学过程。kuUednc

kuUednc

图 4：GraphSAGE算法的数学模型（来源：http://snap.stanford.edu/graphsage）kuUednc

对于每一个待处理的目标节点x_v_，GraphSAGE 执行下列操作：kuUednc

1）通过邻居采样函数N（v），采样子图(subgraph)中的节点kuUednc

2）聚合被采样的邻节点特征，聚合函数可以为mean()、lstm()或者 polling()等kuUednc

3）将聚合结果与上一次迭代的输出表征合并，并以W^k做卷积kuUednc

4）卷积结果做非线性处理kuUednc

5）迭代若干次以结束当前第k层所有邻节点的处理kuUednc

6）将第k层迭代结果做归一化处理kuUednc

7）迭代若干次以结束所有K层采样深度的处理kuUednc

8）最终迭代结果z_v即为输入节点x_v的嵌入（embedding）kuUednc

4. GNN加速器设计挑战

GNN的算法中涉及到大量的矩阵计算和内存访问操作，在传统的x86架构的服务器上运行此算法是非常低效的，表现在速度慢，能耗高等方面。kuUednc

新型GPU的应用，可以为GNN的运算速度和能效比带来显著收益。然而GPU内存扩展性的短板，使其无法胜任海量节点Graph的处理；GPU的指令执行方式，也造成了计算延迟过大并且不可确定，无法胜任需要实时计算Graph的场景。kuUednc

如上所述种种设计挑战的存在，使得业界急需一种可以支持高度并发实时计算、巨大内存容量和带宽、以及在数据中心范围可扩展的GNN加速解决方案。kuUednc

5. GNN加速器的FPGA设计方案

Achronix 公司推出的 Speedster7t系列高性能FPGA，专门针对数据中心和机器学习工作负载进行了优化，消除了CPU、GPU以及传统 FPGA 存在的若干性能瓶颈。Speedster7t FPGA 基于台积电的 7nm FinFET 工艺，其架构采用革命性的新型 2D 片上网络（NoC），独创的机器学习处理器矩阵（MLP），并利用高带宽 GDDR6 控制器、400G 以太网和 PCI Express Gen5 接口，在保障ASIC 级别性能的同时，为用户提供了灵活的硬件可编程能力。下图展示了Speedster7t1500高性能FPGA的架构。kuUednc

kuUednc

图5: Achronix Speedster7t1500 高性能FPGA 架构（来源：http://www.achronix.com）kuUednc

如上所述种种特性，使得Achronix Speedster7t1500 FPGA器件为GNN加速器设计中所面临的各种挑战，提供了完美的解决方案。kuUednc

kuUednc

表1：GNN设计挑战与Achronix的Speedster7t1500 FPGA解决方案kuUednc

5.1 GNN加速器顶层架构

本GNN加速器针对GraphSAGE进行设计，但其架构具有一定的通用性，可以适用于其他类似的GNN算法加速，其顶层架构如下图所示。kuUednc

kuUednc

图6: GNN加速器顶层架构（来源：Achronix原创）kuUednc

图中GNN Core为算法实现的核心部分，其设计细节将在下文展开谈论；RoCE-Lite为RDMA协议的轻量级版本，用于通过高速以太网进行远程内存访问，以支持海量节点的Graph计算，其设计细节将在本公众号的后续文章中讨论；400GE以太网控制器用来承载RoCE-Lite协议；GDDR6用于存放GNN处理过程中所需的高速访问数据；DDR4作为备用高容量内存，可以用于存储相对访问频度较低的数据，比如待预处理的Graph；PCIe Gen5x16提供高速主机接口，用于与服务器软件交互数据；上述所有模块，皆通过NoC片上网络来实现高速互联。kuUednc

5.2 GNN Core 微架构

在开始讨论GNN Core 微架构之前，我们先回顾一下本文第3节中的GraphSAGE算法，其内层循环的聚合以及合并（包含卷积）等两个操作占据了算法的绝大部分计算和存储器访问。通过研究，我们得到这两个步骤的特征如下：kuUednc

kuUednc

表2：GNN算法中聚合与合并操作对比（来源：https://arxiv.org/abs/1908.10834）kuUednc

可以看出，聚合操作与合并操作，其对计算和存储器访问的需求完全不同。聚合操作中涉及到对邻节点的采样，然而Graph属于非欧氏数据类型，其大小维度不确定且无序，矩阵稀疏，节点位置随机，所以存储器访问不规则并难以复用数据；在合并操作中，其输入数据为聚合结果（节点的低维表征）以及权重矩阵，其大小维度固定，存储位置规则线性，对存储器访问不存在挑战，但是矩阵的计算量非常大。kuUednc

基于以上分析，我们决定在GNN Core加速器设计中用两种不同的硬件结构来处理聚合操作与合并操作，功能框图如下图所示：kuUednc

kuUednc

图7: GNN Core功能框图（来源：Achronix原创）kuUednc

聚合器（Aggregator）：通过SIMD（单指令多数据处理器）阵列来对Graph进行邻居节点采样并进行聚合操作。其中的“单指令”可以预定义为mean()均值计算，或者其他适用的聚合函数；“多数据”则表示单次mean()均值计算中需要多个邻居节点的特征数据作为输入，而这些数据来自于子图采样器（Subgraph Sampler）；SIMD阵列通过调度器Agg Scheduler做负载均衡；子图采样器通过NoC从GDDR6或DDR4读回的邻接矩阵和节点特征数据h⁰_v，分别缓存在Adjacent List Buffer和Node Feature Buffer之中；聚合的结果h^k_N(v)存储在Agg Buffer之中。kuUednc

合并器（Combinator）：通过脉动矩阵PE来执行聚合结果的卷积操作；卷积核为W^k权重矩阵；卷积结果通过ReLU激活函数做非线性处理，同时也存储在Partial Sum Buffer中以方便下一轮迭代。kuUednc

合并的结果通过L2BN归一化处理之后，即为最终的节点表征h^k_v。kuUednc

在比较典型的节点分类预测应用中，该节点表征h^k_v可以通过一个全连接层（FC），以得到该节点的分类标签。此过程属于传统的机器学习处理方法之一，没有在GraphSAGE论文中体现，此设计中也没有包含这个功能。kuUednc

6. 结论

本文深入讨论了GraphSAGE GNN 算法的数学原理，并从多个维度分析了GNN加速器设计中的技术挑战。作者通过分解问题并在架构层面逐一解决的方法，综合运用Achronix Speedster7t1500 FPGA所提供的竞争优势，创造了一个性能极佳且高度可扩展的GNN加速解决方案。kuUednc

阅读全文，请先

上一篇： 华为在5G行业终端生态峰会上发布白皮书，智能机器人加速应用 下一篇： 四种Wi-Fi定位技术综述

微信扫一扫
一键转发
最前沿的电子设计资讯
请关注“电子技术设计微信公众号”

创新的FPGA技术实现低功耗、模块化、小尺寸USB解决方本文总结了业界用于高性能 USB 3 设备的一些典型解决方案，并介绍了一种新的架构，这种架构既能节省功耗和面积，又能提高灵活性和易用性···
盘点CES 2025上基于Arm架构的AI创新和技术亮点近期在美国拉斯维加斯举行的 CES 2025 再次彰显了其作为展示最新科技创新的重要平台。今年展会上所呈现的众多前沿产品和新的发布将推动各个行业的变革与发展···
芯耀辉：从传统IP到IP2.0，AI时代国产IP机遇与挑战齐飞 2024年，集成电路行业在变革与机遇中持续发展。面对全球经济的新常态、技术创新的加速以及市场需求的不断变化，集成电路企业如何在新的一年里保持竞争力并实现可持续发展？
Arm 技术预测：2025 年及未来的技术趋势 Arm 对 2025 年及未来的技术发展做出了预测，范围涵盖技术的各个方面，从 AI 的未来发展到芯片设计，再到不同技术市场的主要趋势···
该如何设计PCB以保证恶劣环境下的信号完整性在现代电子设计中，保持PCB信号完整性是一项越来越具有挑战性的任务···
CES 2025：洞察汽车创新未来从CES 2025的汽车方案展示可以看到，汽车OEM正从黑盒解决方案转变为区域架构为主的处理主干，传感器功能也逐渐优化，结合多模态输入数据与情境感知的 ML...
CES 2025：Edge AI硬件加速再掀热潮边缘计算/边缘人工智能(Edge AI)一直是热门话题，在CES 2025也不例外。然而，实现边缘计算/智能的底层硬件是什么？又是如何实现与应用的呢？
英伟达50系列显卡发布，RTX 5090D近乎“零提升”？ 1月6日的CES展会上，英伟达正式发布了备受期待的RTX 50系列显卡···
全自动手术机器人出现，缝合速度比医生还快30%？美国约翰霍普金斯大学和斯坦福大学的联合团队创造了一项前所未有的突破，他们首次对机器人进行了训练，使其能够像人类医生一样熟练地执行相同的手术程序···
2024是AI MCU元年？ 2024年开启了MCU领域的AI时代，2025年可望见证更多轻量化AI模型在MCU上的进一步突破...
探索工业应用中边缘连接的未来我们的世界正变得更加智能且紧密相连，楼宇和工厂正以前所未有的方式实现自动化。为了确保这些新系统有效运行，可靠的信息通信至关重要···
其实CPU才是最适合AI推理的？因为这五大理由本文将具体介绍CPU成为AI推理工作负载最佳目标的五大理由···

机器人所需要的传感器有哪些？随着机器人技术的迭代升级，传感器的重要性将持续提升，其功能性、精度和适配性也将得到显著改进，作为机器人不可
2024年墨西哥市场分析，中国品牌崛起 2024年，墨西哥汽车市场以近10%的增长率展现了强劲的复苏势头，中国品牌的崛起为市场注入了新活力，当然现在的政
2025，大众汽车集团在中国如何转型？ 2024 年，大众汽车集团（中国）在复杂多变的市场环境中成功达成销量目标，向客户交付超过 290 万辆汽车，新能源汽车领
国产射频芯片公司汇总对于射频芯片这项卡脖子技术，国内很多公司在这方面努力，而且也做出了不错的成绩。一些射频芯片公司无论从研发
拆解报告：松下电器1200W电吹风松下EH-NW90电吹风内置10万转高速无刷电机，并具备三档风速和四档风温可选。电吹风内置纳诺怡技术，为秀发提供
拆解报告：白牌电动工具电池多功能放电转换器这款白牌多功能放电转换器适配得伟电动工具电池使用，将电动工具电池和放电转换器组装起来，即可组成移动电源和
拆解报告：MOMA猛玛LARK M2无线麦克风 MOMA猛玛LARK M2无线麦克风在外观方面，采用了极富创新的设计，提供了轻盈舒适的佩戴使用体验。发射器采用了夹
阿根廷2024年：销量下滑，北汽增长240.1%。 2024年阿根廷汽车市场在整体销量下滑的背景下，依然展现出多元化的发展趋势···
2025年第3周：全球最快四足机器人发布 2025年将成为机器人产业的关键时间点，业内预期27年人形机器人出货量可达50~100万台。从技术进步到供应链成熟
欧洲2024年汽车市场：微弱复苏和电动化加速并存 2024年，欧盟新车注册量小幅增长0.8%，达到约1060万辆，欧盟+英国+北欧国家的销量为1296.4万台，同比增长0.9%，整个欧
射频微波领域有哪些高质量期刊？今天我们结合网络上的资料一起整理一份射频微波领域的期刊列表，以便同学们投稿时可以选择···
拆解报告：Portal智能屏幕24W电源适配器 Portal智能屏幕电源适配器采用黑色直板机身，外观整洁，配有2米长黑色输出线。适配器采用美规固定插脚，支持100-2

性能飞跃！升级电流传感器NSM201x-P系列赋能汽车三电和光伏逆变器纳芯微推出全新车规级集成电流路径霍尔传感器NSM201x-P系列。该系列产品是对纳芯微已量产的NSM201x系列的完
意法半导体推出STSPIN32G0新列电机驱动器，满足工业自动化和家电市意法半导体STSPIN32系列集成化电机驱动器新增八款产品，满足电动工具、家用电器、工业自动化等应用的低成本、
Melexis推出性能先进的温度传感器，以红外技术创新实现电磁炉智能全球微电子工程公司Melexis宣布，推出专为电磁炉设计的非接触式红外温度传感器芯片MLX90617···
康佳特SMARC模块更新: 全新英特尔酷睿3处理器低功耗 SMARC 模块AI 加速和图形处理性能再次提升···
康佳特针对要求苛刻的实时应用推出新型高性能COM-HPC模块基于英特尔酷睿 Bartlett Lake S处理器的模块性能全面提升···
为汽车安全保驾护航，纳芯微推出基于AMR技术的ABS轮速传感器纳芯微宣布推出全新基于AMR（各向异性磁阻技术）的轮速传感器NSM41xx系列。该系列产品通过集成先进的磁性传感敏
Microchip推出全新Switchtec™ PCIe® 4.0 16通道交换机系列 PCI100x系列器件可为任何需要加速或专用计算的应用提供高性能和成本效益···
RK3576有多强？实测三屏八摄像头轻松搞定-米尔米尔基于他们推出的MYD-LR3576开发板开发了一个3屏异显，8路摄像头输入的DEMO，实测下来，RK3576轻松搞定了该任
SynQor®推荐先进的军用级三相输入UPS（UPS-1500-S-1U-T） SynQor的三相输入UPS电源能使单相负载在电源端呈现出符合MIL-STD-1399-300B标准的清洁、表现良好且几乎零反
村田开发超小尺寸、超低功耗的Type 2GQ GNSS模块，以匠心品质助在几年前，定位系统充斥于生活方方面面的情节还仅见于各式的科幻影片，而今具备这一功能的产品已经以各种形态步
瑞萨推出性能卓越的新型MOSFET 瑞萨全新晶圆技术可以帮助MOSFET实现导通电阻降低30%、栅漏电荷减少40%、封装尺寸缩小50%的目标···
加特兰集成 Cadence Tensilica ConnX 220 DSP 全面升级汽 ConnX 220 DSP 集成至基于下一代 Andes SoC 的加特兰雷达解决方案后，将带来显著优势，包括提高灵活性、

热门评论
最新评论

换一换

杂志声明

机器学习实战：GNN（图神经网络）加速器的FPGA解决方案

1. 概述

2. GNN 简介

3. GraphSAGE算法简介

4. GNN加速器设计挑战

5. GNN加速器的FPGA设计方案

5.1 GNN加速器顶层架构

5.2 GNN Core 微架构

6. 结论