一种基于FPGA的图神经网络加速器解决方案-EDN 电子技术设计

 本白皮书的写作动机是将国外最新的GNN算法、对加速技术的研究以及对基于现场可编程逻辑门阵列（FPGA）的GNN加速技术的探讨相结合，并以概述的形式呈现给读者。

得益于大数据的兴起和计算能力的快速提升，机器学习技术近年来经历了革命性的发展。诸如图像分类、语音识别和自然语言处理等机器学习任务，都是对具有一定大小、维度和有序排列的欧几里得数据进行处理。然而，在许多现实场景中，数据是由复杂的非欧几里得数据（例如图形）表示的。这些图形不仅包含数据，还包含数据之间的依赖关系，例如社交网络、蛋白质分子结构、电子商务平台中的客户数据等。数据复杂性的提升给传统的机器学习算法设计及其实现技术带来了严峻的挑战。在这种情况下，许多全新的基于图形的机器学习算法或图神经网络（GNN）不断在学术界和工业界涌现。eLxednc

GNN对计算能力和存储有非常高的要求，而且其算法的软件实现效率非常低。因此，业界对GNN的硬件加速有着非常迫切的需求。尽管传统的卷积神经网络（CNN）硬件加速有很多种解决方案，但GNN的硬件加速还没有得到充分的讨论和研究。在撰写本白皮书时，谷歌（Google）和百度（Baidu）都无法搜索到关于GNN硬件加速的中文研究资料。本白皮书的写作动机是将国外最新的GNN算法、对加速技术的研究以及对基于现场可编程逻辑门阵列（FPGA）的GNN加速技术的探讨相结合，并以概述的形式呈现给读者。eLxednc

对图神经网络（GNN）的介绍

在宏观层面上，GNN的架构与传统CNN有很多相似之处，诸如卷积层、池化、激活函数、机器学习处理器（MLP）、全连接层（FC layer）等模块，这些都可以应用到GNN。下图展示了一个相对简单的GNN架构。eLxednc

eLxednc

图1：典型的GNN架构（来源：https://arxiv.org/abs/1901.00596）eLxednc

但是，GNN中的图形数据卷积计算与传统CNN中的二维卷积计算不同。以下图为例，红色目标节点的卷积计算过程如下所示：eLxednc

1、图卷积——使用近邻函数对周围节点的特征进行采样，并计算平均值。相邻节点的数量是不确定且无序的（非欧几里得数据）eLxednc

2、二维卷积——使用卷积核对周围节点的特征进行采样，并计算加权平均值。相邻节点的数量是确定且有序的（欧几里得数据）eLxednc

eLxednc

图2：图卷积和二维卷积（来源：https://arxiv.org/abs/1901.00596）eLxednc

对GraphSAGE算法的介绍

学术界对GNN算法进行了大量的研究和探讨，提出了相当多的创新实现方法。其中，由斯坦福大学（Stanford University）于2017年提出的GraphSAGE是一种归纳表示学习算法，用于预测大规模图中动态的、全新的、未知的节点类型，还专门针对节点数量庞大、节点特征丰富的图进行了优化。如下图所示，GraphSAGE算法的计算过程可以分为三个主要步骤：eLxednc

1、相邻节点采样——用于降低复杂性，一般采样两层，每层采样几个节点。eLxednc

2、聚合——用于嵌入目标节点，即图的低维向量表示。eLxednc

3、预测——使用嵌入作为全连接层的输入，以预测目标节点d的标签。eLxednc

eLxednc

图3：GraphSAGE算法的可视化表示（来源：http://snap.stanford.edu/graphsage）eLxednc

为了在FPGA中实现GraphSAGE算法加速，必须了解其数学模型，以便将算法映射到不同的逻辑模块。下图所示的代码说明了该算法的数学过程。eLxednc

eLxednc

图4：GraphSAGE算法的数学模型（来源：http://snap.stanford.edu/graphsage）eLxednc

对于每个要处理的目标节点xv，GraphSAGE算法都会执行以下操作：eLxednc

1、通过近邻采样函数N(v)对子图中的节点进行采样。eLxednc

2、聚合要采样的相邻节点的特征。聚合函数可以是mean()、lstm()或polling()等。eLxednc

3、将聚合结果与上一次迭代的输出表示合并起来，并使用Wk进行卷积。eLxednc

4、对卷积结果进行非线性处理。eLxednc

5、多次迭代以结束当前第k层的所有相邻节点的处理。eLxednc

6、对第k层迭代的结果进行标准化处理。eLxednc

7、多次迭代以结束对所有K层采样深度的处理。eLxednc

8、将最终的迭代结果zv嵌入到输入节点xv。eLxednc

GNN加速器设计所面临的挑战

GNN算法涉及大量的矩阵计算和存储访问操作。在传统的x86架构服务器上运行这种算法的效率是非常低的，表现为速度慢、能耗高等。eLxednc

新型图形处理器（GPU）的应用可以显著提高GNN的计算速度与能效比。但是，GPU在存储可扩展性方面存在短板，使其无法处理图形中的海量节点。GPU的指令执行方式也会导致计算延迟过大和不确定性；因此，它不适用于需要实时计算图形的场景。eLxednc

上面提到的各种设计挑战，使得业界迫切需要一种能够支持高并发、实时计算，拥有巨大存储容量和带宽，并可扩展到数据中心的GNN加速解决方案。eLxednc

基于FPGA设计方案的GNN加速器

Achronix的Speedster®7t系列FPGA产品（以及该系列的第一款器件AC7t1500）是针对数据中心和机器学习工作负载进行了优化的高性能FPGA器件，消除了基于中央处理器（CPU）、GPU和传统FPGA的解决方案中存在的若干性能瓶颈。Speedster7t系列FPGA产品采用了台积电（TSMC）的7nm FinFET工艺，其架构采用了一种革命性的全新二维片上网络（NoC）、独创的机器学习处理器矩阵（MLP），并采用高带宽GDDR6控制器、400G以太网和PCI Express Gen5接口，在确保ASIC级性能的同时，它为用户提供了灵活的硬件可编程性。下图展示了高性能FPGA器件Speedster7t1500的架构。eLxednc

eLxednc

图5：Achronix高性能FPGA器件Speedster AC7t1500的架构eLxednc

上述特点使Achronix Speedster7t1500器件成为应对在GNN加速器设计中面临的各种挑战的完美解决方案。eLxednc

表1：GNN设计面临的挑战和Achronix Speedster7t1500 FPGA器件提供的解决方案eLxednc

GNN设计所面临的挑战	Speedster AC7t1500器件提供的解决方案
高速矩阵运算	机器学习处理器（MLP）
高带宽和低延迟存储	LRAM+BRAM+GDDR6+DDR4
高并发和低延迟计算	FPGA使用可编程逻辑电路，以确保在硬件层面进行低并发和高并发延迟计算
存储扩展	基于4×400 Gbps的RDMA确保在数据中心以极低的延迟扩展存储访问
算法不断演进	FPGA中的可编程逻辑确保算法可以在硬件层面进行升级和重新配置
复杂的设计	丰富的硬IP减少开发时间、降低复杂性，NoC简化模块之间的互连并改善时序

GNN加速器顶层架构

此GNN加速器是为GraphSAGE算法设计的，但是它的设计也可以应用于其他类似的GNN算法加速。其顶层架构如下图所示。eLxednc

eLxednc

图6：GNN加速器顶层架构eLxednc

该架构由以下模块组成：eLxednc

图中的GNN内核是算法实现的核心部分（详情如下）。eLxednc

RoCE-Lite是RDMA协议的轻量级版本，用于通过高速以太网进行远程存储访问，以支持海量节点的图计算。eLxednc

400GE以太网控制器用于承载RoCE-Lite协议。eLxednc

GDDR6存储器用于存储GNN处理过程中所需的高速访问数据（DDR4作为备用大容量存储器）。该存储器用于存储访问频率相对较低的数据，例如待预处理的图形数据。eLxednc

PCIe Gen5 ×16 接口提供高速主机接口，用于与服务器软件进行数据交互。eLxednc

上述所有模块均通过具有高带宽的NoC实现互连。eLxednc

GNN内核微架构

在开始讨论GNN内核的微架构之前，有必要先回顾一下GraphSAGE算法。其内层循环的聚合和合并（包括卷积）占据了该算法的大部分计算和存储访问。通过研究，我们得出这两个步骤的特点，具体如下。eLxednc

表2：GNN算法中聚合和合并操作的对比（来源：https://arxiv.org/abs/1908.10834）eLxednc

步骤	聚合操作	合并操作
存储访问方式	间接访问，不规则	直接访问，规则
数据重用	低	高
计算模式	动态，不规则	静态，规则
计算量	低	高
性能瓶颈	存储	计算

可以看出，聚合操作和合并操作在计算和存储访问模式上有着完全不同的需求。聚合操作涉及相邻节点的采样。然而，图形是一种非欧几里得数据类型——它的大小和维度是不确定且无序，矩阵稀疏，节点位置随机。因此，存储访问是不规则的，并且难以重复利用数据。eLxednc

在合并操作中，输入数据是聚合结果（节点的低维表示）和权重矩阵。它的大小和维度是固定的，具有线性存储位置。因此对存储访问没有挑战，但是矩阵的计算量非常大。eLxednc

基于上述分析，我们决定在GNN内核加速器设计中选择使用两种不同的硬件结构来分别处理聚合和合并操作（如下图示）：eLxednc

聚合器——通过单指令多数据（SIMD）处理器阵列，对图形相邻节点进行采样和聚合。单指令可以预定义为mean()平均值计算，或其他适用的聚合函数；多数据是指单次mean()均值计算中需要多个相邻节点的特征数据作为输入，这些数据来自子图采样器。SIMD处理器阵列通过调度器Agg Scheduler进行负载平衡。子图采样器通过NoC从GDDR6或DDR4读回的邻接矩阵和节点特征数据h0v分别缓存在邻接列表缓冲区（Adjacent List Buffer）和节点特征缓冲区（Node Feature Buffer）。聚合的结果hkN(v)存储在聚合缓冲区（Aggregation Buffer）中。eLxednc

合并器——通过脉动矩阵PE对聚合结果进行卷积运算。卷积核是Wk权重矩阵。卷积结果由ReLU激活函数进行非线性处理，同时也存储在Partial Sum Buffer中，以用于下一轮迭代。eLxednc

eLxednc

图7：GNN内核功能框图eLxednc

合并结果经过L2BN标准化处理后，即为最终的节点表示hkv。在一个典型的节点分类预测应用中，节点表示hkv可以通过一个全连接层（FC）来获取节点的分类标签。这个过程是传统的机器学习处理方法之一，在GraphSAGE文献资料中没有体现，这个功能也没有包含在这个架构中。eLxednc

结论

本白皮书探讨了GraphSAGE GNN算法的数学原理，并从多个角度分析了GNN加速器设计中的技术挑战。通过分析问题并在架构层面逐一解决，提出了一种架构，利用Achronix Speedster7t AC7t1500 FPGA器件提供的具有竞争性的优势，创建了一种高度可扩展的、能够提供卓越性能的GNN加速解决方案。eLxednc

有关Speedster7t系列FPGA器件的更多信息，请访问www.achronix.com。eLxednc

免责声明

本文件中所提供的信息被认为是准确和可靠的。但是，Achronix半导体公司不对此类信息的完整性或准确性作出任何声明或担保，并且对于使用本文包含的信息不承担任何责任。Achronix半导体公司保留随时更改本文件及其所含信息的权利，恕不另行通知。所有Achronix商标、注册商标、免责声明和专利均在网站上列出http://www.achronix.com/legal。eLxednc

阅读全文，请先

FPGA 技术实例

上一篇： 学子专区 — 活动：零增益放大器(MOS) 下一篇： 虚拟仿真技术助力自动驾驶测试降本增效，加速智能汽车产业发展

微信扫一扫
一键转发
最前沿的电子设计资讯
请关注“电子技术设计微信公众号”

莱迪思聚焦低功耗中小型FPGA创新，并计划发展大规模FPGA 在最新的开发者大会上，莱迪思展示了其FPGA产品在广泛市场中的应用及未来发展的宏伟蓝图。据莱迪思亚太地区应用工程高级总监谢征帆介绍，随着莱迪思FPGA技术的广泛应用和产品差异化的推进，全球已有超过1万客户选择使用莱迪思的FPGA产品，部署的许可证数量也已超过3.5万。
第二代Versal Premium系列问世，AMD如何突破数据密集型继第一代Versal Premium系列自适应SoC之后，AMD于2024年11月12日发布了第二代Versal Premium系列产品，这是业界首款采用 CXL 3.1 及 PCIe Gen6 并支持 LPDDR5 的 FPGA 器件···
TPLD助力工程师在数分钟内完成分立式逻辑设计通过将多达40个逻辑元件集成到单个芯片上，工程师可以大幅减小电路板尺寸。使用德州仪器的InterConnect Studio工具，工程师无需软件知识即可在数分钟内轻松设计、仿真和配置德州仪器的可编程逻辑器件。
德州仪器(TI)全新可编程逻辑产品系列助力工程师在数分全新可编程逻辑器件和无代码设计工具可降低工程设计复杂性和成本、减少布板空间并缩短时间。
AMD发布第六代Spartan FPGA系列，重塑IoT时代的I/O密集日前，AMD正式发布了其第六代Spartan FPGA产品——Spartan UltraScale+ FPGA系列，该产品系列能为边缘端各种I/O密集型应用提供成本效益与高能效性能，在基于28纳米及以下制程技术的FPGA领域带来业界极高的I/O逻辑单元比，较之前代产品可带来高达30%的总功耗下降···
Achronix推出基于FPGA的加速自动语音识别解决方案提供超低延迟和极低错误率（WER）的实时流式语音转文本解决方案，可同时运行超过1000个并发语音流
Microchip FPGA采用量身定制的PolarFire FPGA和SoC解涵盖工业和通信领域以及智能嵌入式视觉、电机控制和光学接入技术等十个系列的协议栈，内容包括 IP、参考设计、开发套件、应用说明、演示指南等
AMD 以面向工业与商业应用的 Kria K24 SOM 及入 K24 SOM 和 KD240 套件支持为电机控制和数字信号处理应用设计高能效量产就绪型解决方案，并加速上市进程···
AMD Kria新品只有信用卡一半大，无需FPGA经验一小时内日前，AMD宣布推出AMD Kria™ K24系统模块（SOM）和KD240驱动器入门套件，这是Kria自适应SOM及开发者套件产品组合的最新产品。AMD Kria K24 SOM能以小尺寸提供高能效计算，面向成本敏感型工业和商业边缘应用···
通过AI加速，智能终端应用得到创新提升京微齐力采用Imagination AI加速器，助力打造Avatar高端产品系列第一颗新型智能加速芯片，为不同行业用户提供高性价比、强适配性的系统级平台解决方案
2023年嵌入式调查：随着工作负载的激增，更多IP将会被重复最新的2023年嵌入式调查已经出炉，它不仅显示了迅速增长的工作负载以及工程师如何应对处理，还展示了最常用的设计工具、操作系统和处理器。
Microchip发布业界能效最高的中端FPGA工业边缘协议栈这些新工具使得转向使用PolarFire FPGA和片上系统（SoC）FPGA变得比以往更容易

机器人所需要的传感器有哪些？随着机器人技术的迭代升级，传感器的重要性将持续提升，其功能性、精度和适配性也将得到显著改进，作为机器人不可
2024年墨西哥市场分析，中国品牌崛起 2024年，墨西哥汽车市场以近10%的增长率展现了强劲的复苏势头，中国品牌的崛起为市场注入了新活力，当然现在的政
2025，大众汽车集团在中国如何转型？ 2024 年，大众汽车集团（中国）在复杂多变的市场环境中成功达成销量目标，向客户交付超过 290 万辆汽车，新能源汽车领
国产射频芯片公司汇总对于射频芯片这项卡脖子技术，国内很多公司在这方面努力，而且也做出了不错的成绩。一些射频芯片公司无论从研发
拆解报告：松下电器1200W电吹风松下EH-NW90电吹风内置10万转高速无刷电机，并具备三档风速和四档风温可选。电吹风内置纳诺怡技术，为秀发提供
拆解报告：白牌电动工具电池多功能放电转换器这款白牌多功能放电转换器适配得伟电动工具电池使用，将电动工具电池和放电转换器组装起来，即可组成移动电源和
拆解报告：MOMA猛玛LARK M2无线麦克风 MOMA猛玛LARK M2无线麦克风在外观方面，采用了极富创新的设计，提供了轻盈舒适的佩戴使用体验。发射器采用了夹
阿根廷2024年：销量下滑，北汽增长240.1%。 2024年阿根廷汽车市场在整体销量下滑的背景下，依然展现出多元化的发展趋势···
2025年第3周：全球最快四足机器人发布 2025年将成为机器人产业的关键时间点，业内预期27年人形机器人出货量可达50~100万台。从技术进步到供应链成熟
欧洲2024年汽车市场：微弱复苏和电动化加速并存 2024年，欧盟新车注册量小幅增长0.8%，达到约1060万辆，欧盟+英国+北欧国家的销量为1296.4万台，同比增长0.9%，整个欧
射频微波领域有哪些高质量期刊？今天我们结合网络上的资料一起整理一份射频微波领域的期刊列表，以便同学们投稿时可以选择···
拆解报告：Portal智能屏幕24W电源适配器 Portal智能屏幕电源适配器采用黑色直板机身，外观整洁，配有2米长黑色输出线。适配器采用美规固定插脚，支持100-2

性能飞跃！升级电流传感器NSM201x-P系列赋能汽车三电和光伏逆变器纳芯微推出全新车规级集成电流路径霍尔传感器NSM201x-P系列。该系列产品是对纳芯微已量产的NSM201x系列的完
意法半导体推出STSPIN32G0新列电机驱动器，满足工业自动化和家电市意法半导体STSPIN32系列集成化电机驱动器新增八款产品，满足电动工具、家用电器、工业自动化等应用的低成本、
Melexis推出性能先进的温度传感器，以红外技术创新实现电磁炉智能全球微电子工程公司Melexis宣布，推出专为电磁炉设计的非接触式红外温度传感器芯片MLX90617···
康佳特SMARC模块更新: 全新英特尔酷睿3处理器低功耗 SMARC 模块AI 加速和图形处理性能再次提升···
康佳特针对要求苛刻的实时应用推出新型高性能COM-HPC模块基于英特尔酷睿 Bartlett Lake S处理器的模块性能全面提升···
为汽车安全保驾护航，纳芯微推出基于AMR技术的ABS轮速传感器纳芯微宣布推出全新基于AMR（各向异性磁阻技术）的轮速传感器NSM41xx系列。该系列产品通过集成先进的磁性传感敏
Microchip推出全新Switchtec™ PCIe® 4.0 16通道交换机系列 PCI100x系列器件可为任何需要加速或专用计算的应用提供高性能和成本效益···
RK3576有多强？实测三屏八摄像头轻松搞定-米尔米尔基于他们推出的MYD-LR3576开发板开发了一个3屏异显，8路摄像头输入的DEMO，实测下来，RK3576轻松搞定了该任
SynQor®推荐先进的军用级三相输入UPS（UPS-1500-S-1U-T） SynQor的三相输入UPS电源能使单相负载在电源端呈现出符合MIL-STD-1399-300B标准的清洁、表现良好且几乎零反
村田开发超小尺寸、超低功耗的Type 2GQ GNSS模块，以匠心品质助在几年前，定位系统充斥于生活方方面面的情节还仅见于各式的科幻影片，而今具备这一功能的产品已经以各种形态步
瑞萨推出性能卓越的新型MOSFET 瑞萨全新晶圆技术可以帮助MOSFET实现导通电阻降低30%、栅漏电荷减少40%、封装尺寸缩小50%的目标···
加特兰集成 Cadence Tensilica ConnX 220 DSP 全面升级汽 ConnX 220 DSP 集成至基于下一代 Andes SoC 的加特兰雷达解决方案后，将带来显著优势，包括提高灵活性、

热门评论
最新评论

换一换

杂志声明

一种基于FPGA的图神经网络加速器解决方案

对图神经网络（GNN）的介绍

对GraphSAGE算法的介绍

GNN加速器设计所面临的挑战

基于FPGA设计方案的GNN加速器

GNN加速器顶层架构

GNN内核微架构

结论

免责声明