使用PCIe交换网结构在多主机系统中优化资源部署-EDN 电子技术设计

 PCIe交换网结构是一种能够充分利用CPU巨大性能的绝佳方法，但PCIe标准本身存在一些障碍。不过，可以通过使用动态分区和多主机单根I/O虚拟化共享技术来解决这些难题，以便可以将GPU和NVMe资源实时动态分配给多主机系统中的任何主机，从而满足机器学习工作负载不断变化的需求。

越来越多的数据中心和其他高性能计算环境开始使用GPU，因为GPU能够快速处理深度学习和机器学习应用中生成的大量数据。不过，就像许多可提高应用性能的新型数据中心创新一样，这项创新也暴露出新的系统瓶颈。在这些应用中，用于提高系统性能的新兴架构涉及通过一个PCIe^®结构在多个主机之间共享系统资源。RfKednc

PCIe标准（特别是其基于树的传统层级）会限制资源共享的实现方式（和实现程度）。不过，可以实现一种低延时的高速结构方法，这种方法允许在多个主机之间共享大量GPU和NVMe SSD，同时仍支持标准系统驱动程序。RfKednc

PCIe结构方法采用动态分区和多主机单根I/O虚拟化（SR-IOV）共享。各PCIe结构之间可直接路由点对点传输。这样便可为点对点传输提供最佳路由，减少根端口拥塞，并且更有效地平衡CPU资源的负载。RfKednc

传统上，GPU传输必须访问CPU的系统存储器，这会导致端点之间发生存储器共享争用。当GPU使用其共享的存储器映射资源而不是CPU存储器时，它可以在本地提取数据，无需先通过CPU传递数据。这消除了跳线和链路以及由此产生的延时，从而使GPU能够更高效地处理数据。RfKednc

PCIe的固有限制

PCIe主层级是一个树形结构，其中的每个域都有一个根联合体，从该点可扩展到“叶子”，这些“叶子”通过交换网和桥接器到达端点。链路的严格层级和方向性给多主机、多交换网系统带来了成本高昂的设计要求。RfKednc

RfKednc

图1：多主机拓扑RfKednc

以图1所示的系统为例。要符合PCIe的层级，主机1必须在交换网1中有一个专用的下行端口，该端口连接到交换网2中的专用上行端口。它还需要在交换网2中有一个专用的下行端口，该端口连接到交换网3中的专用上行端口，依此类推。主机2和主机3也有类似的要求，如图2所示。RfKednc

RfKednc

图2：每个主机的层级要求RfKednc

即使是基于PCIe树形结构的最基本系统，也需要各交换网之间有三个链路专用于每个主机的PCIe拓扑。而且，由于主机之间无法共享这些链路，因此系统会很快变得极为低效。RfKednc

此外，符合PCIe的典型层级只有一个根端口，而且尽管“多根I/O虚拟化和共享”规范中支持多个根，但它会使设计更复杂，并且当前不受主流CPU支持。结果会造成未使用的PCIe设备（即端点）滞留在其分配到的主机中。不难想象，这在采用多个GPU、存储设备及其控制器以及交换网的大型系统中会变得多么低效。RfKednc

例如，如果第一个主机（主机1）已经消耗了所有计算资源，而主机2和3未充分利用资源，则显然希望主机1访问这些资源。但主机1无法这样做，因为这些资源在它的层级域之外，因此会发生滞留。非透明桥接（NTB）是这种问题的一个潜在解决方案，但由于每种类型的共享PCIe设备都需要非标准驱动程序和软件，因此这同样会使系统变得复杂。更好的方法是使用PCIe结构，这种结构允许标准PCIe拓扑容纳多个可访问每个端点的主机。RfKednc

实施方法

系统使用一个PCIe结构交换网（本例中为Microchip Switchtec® PAX系列的成员）在两个独立但可透明互操作的域中实现：即包含所有端点和结构链路的结构域以及每个主机专用的主机域（图3）。主机通过在嵌入式CPU上运行的PAX交换网固件保留在单独的虚拟域中，因此，交换网将始终显示为具有直连端点的标准单层PCIe设备，而与这些端点出现在结构中的位置无关。RfKednc

RfKednc

图3：每个结构的独立域RfKednc

来自主机域的事务会在结构域中转换为ID和地址，反之，结构域中通信的非分层路由也是如此。这样，系统中的所有主机便可共享连接交换网和端点的结构链路。交换网固件会拦截来自主机的所有配置平面通信（包括PCIe枚举过程），并使用数量可配置的下行端口虚拟化一个符合PCIe规范的简单交换网。RfKednc

当所有控制平面通信都路由到交换网固件进行处理时，数据平面通信直接路由到端点。其他主机域中未使用的GPU不再滞留，因为它们可以根据每个主机的需求动态分配。结构内支持点对点通信，这使其能够适应机器学习应用。当以符合PCIe规范的方式向每个主机提供功能时，可以使用标准驱动程序。RfKednc

操作方法

为了解这种方法的工作原理，我们以图4中的系统为例，该系统由两个主机（主机1采用Windows^®系统，主机2采用Linux^®系统）、四个PAX PCIe结构交换网、四个Nvidia M40 GPGPU和一个支持SR-IOV的Samsung NVMe SSD组成。在本实验中，主机运行代表实际机器学习工作负载的通信，包括Nvidia的CUDA点对点通信基准测试实用程序和训练cifar10图像分类的TensorFlow模型。嵌入式交换网固件处理交换网的低级配置和管理，系统由Microchip的ChipLink调试和诊断实用程序管理。 RfKednc

RfKednc

图4：双主机PCIe结构引擎RfKednc

四个GPU最初分配给主机1，PAX结构管理器显示在结构中发现的所有设备，其中GPU绑定到Windows主机。但是，主机上的结构不再复杂，所有GPU就像直接连接到虚拟交换网一样。随后，结构管理器将绑定所有设备，Windows设备管理器将显示GPU。主机将交换网视为下行端口数量可配置的简单物理PCIe交换网。RfKednc

一旦CUDA发现了四个GPU，点对点带宽测试就会显示单向传输速率为12.8 GBps，双向传输速率为24.9 GBps。这些传输直接跨过PCIe结构，而无需通过主机。如果运行用于训练Cifar10图像分类算法的TensorFlow模型并使工作负载分布在全部四个GPU上，则可以将两个GPU释放回结构池中，将它们与主机解除绑定。这样可以释放其余两个GPU来执行其他工作负载。与Windows主机一样，Linux主机也将交换网视为简单的PCIe交换网，无需自定义驱动程序，而CUDA也可以发现GPU，并在Linux主机上运行P2P传输。性能类似于使用Windows主机实现的性能，如表1所示。RfKednc

RfKednc

表1：GPU点对点传输带宽RfKednc

下一步是将SR-IOV虚拟功能连接到Windows主机，PAX将此类功能以标准物理NVM设备的形式提供，以便主机可以使用标准NVMe驱动程序。此后，虚拟功能将与Linux主机结合，并且新的NVMe设备将出现在模块设备列表中。本实验的结果是，两个主机现在都可以独立使用其虚拟功能。RfKednc

务必注意的是，虚拟PCIe交换网和所有动态分配操作都以完全符合PCIe规范的方式呈现给主机，以便主机能够使用标准驱动程序。嵌入式交换网固件提供了一个简单的管理接口，这样便可通过成本低廉的外部处理器来配置和管理PCIe结构。设备点对点事务默认情况下处于使能状态，不需要外部结构管理器进行额外配置或管理。RfKednc

总结

PCIe交换网结构是一种能够充分利用CPU巨大性能的绝佳方法，但PCIe标准本身存在一些障碍。不过，可以通过使用动态分区和多主机单根I/O虚拟化共享技术来解决这些难题，以便可以将GPU和NVMe资源实时动态分配给多主机系统中的任何主机，从而满足机器学习工作负载不断变化的需求。RfKednc

阅读全文，请先

网络/协议处理器/DSP 缓存/存储技术技术实例

上一篇： 改善动态环路响应 下一篇： MIT研究人员研发载人无人驾驶船

微信扫一扫
一键转发
最前沿的电子设计资讯
请关注“电子技术设计微信公众号”

2025松山湖中国IC创新高峰论坛：继续聊聊机器人去年的主题是智慧机器人，今年的主题仍然聚焦于机器人身上，不过变为了具身智慧机器人……
让人形机器人“耳聪目明”，昆泰芯KTM5900磁性编码器解编码器芯片作为机器人的核心传感器之一，对于提升机器人的感知能力、安全性和生产效率具有重要意义···
匠芯创M7000系列远超传统微秒级芯片，响应速度不到300纳 M7000 系列芯片已在人形机器人、机器人关节、高功率伺服驱动器等多个领域实现落地应用，与众多头部企业展开紧密合作···
比人类更灵活？先楫HPM6E8Y机器人关节控制解决方案 HPM6E8Y通过硬件加速器将电机控制算法执行时间缩短至2.8μs，以全链路高实时通信与多轴协同能力，开启机器人关节“芯”时代。
爱芯元智发布AX8850：让AI算力更便宜，让智能更可及爱芯元智希望把算力做得更加便宜具智价比，普惠AI，让我们的边缘智能更加触手可及···
ST移动安全解决方案：构建全场景安全连接生态随着移动设备的普及与应用场景的复杂化，移动安全体系正经历关键变革——从早期依赖手机SIM卡的单一安全架构，逐步向融合NFC近场通信、嵌入式安全元件（eSE）及嵌入式SIM卡（eSIM）的多元技术体系演进。
情境感知AI：利用FPGA技术增强边缘智能现场可编程门阵列（FPGA）的灵活性、现场升级能力和互操作性，结合其低功耗、低延迟和并行处理能力，使其成为开发者克服挑战并优化情境边缘AI应用的关键工具。
电力电子科学笔记：金属电导率与索末菲模型与Drude-Lorentz模型相比，索末菲模型向前迈出了决定性的一步。
10BASE-T1S：利用下一代以太网引领智能工厂革新在本文中，我们将探讨为什么10BASE-T1S，作为一种单对以太网标准，成为了替代传统以太网和硬连线解决方案用于工业自动化的首选通信协议。
LM317恒流源加电容是好是坏？工程师必看的电流源设计陷如果在地和LM317的ADJ引脚之间增加一个电容，可以减少电源产生的流向负载的纹波电流，同时降低负载的阻抗，那么它到底是一个更好还是更坏的“恒流源”？
用PWM编程LM317恒流源：多方案汇总本文显示了一种新的拓扑结构，它采用了一种更灵活的方法使Iout可被编程。
设计IP市场增幅创历史新高，谁才是最强王者？ 2024年，设计IP收入达到85亿美元，增长20%，创历史新高···

25年第19周新能源周销量：不同价格带的车型走势解析本周插混与增程车型市场呈现出“两极化”趋势：一方面，10-15万元级的主流家用轿车与SUV销量强劲；另一方面，20万元
拆解报告：甲骨文3060W碳化硅服务器电源模块甲骨文服务器电源模块输入输出均为专用接口，采用热拔插设计。电源模块支持200-277V交流和240-380V直流输入，输
评测：森海塞尔ACCENTUM Open真无线耳机半入耳机森海塞尔ACCENTUM Open 真无线耳机采用半入耳式设计，搭配约4.4克的重量，佩戴舒适。耳机充电盒轻盈小巧，携带外
人形机器人如何做到“手眼”协同+“大小脑”协同？人形机器人正站在“走出实验室”的临界点。从本体制造、控制系统、核心零部件到应用场景拓展，技术与产业生态
南非2025年4月：奇瑞和长城汽车快速上升 2025年4月的南非车市增长，马恒达和现代的强劲回归是一个信号，而中国品牌的集体崛起，则预示着未来竞争将更加多
4月新能源车领跑汽车出口增长，中国汽车走向全球的新引擎 2025年开年以来的出口数据呈现出清晰的结构升级路径。新能源产品在出口中扮演的角色日益重要，不再只是锦上添
拆解报告：vivo手机原装90W氮化镓闪充充电器 vivo 90W氮化镓闪充充电器采用经典直板造型设计，同时附带一条专门量身定制的8.5A大电流数据线，配合信号屏蔽层
拆解报告：HONOR荣耀手环10 荣耀手环10在外观方面，延续了上代的轻薄双曲面设计，同时采用全新的双色NCVM镀膜工艺，使之更加的时尚精致。标配
2025年4月中国车企加速渗透土耳其市场：比亚迪Seal U打响突围战 2025年4月，土耳其市场的爆发式增长为全球车企提供了重要信号：新兴市场正在进入电动化转型的加速期，而土耳其作
2025年第19周新能源周销量：问界起势 2025年第19周，中国乘用车市场的周度销量达到44.4万辆，其中新能源车占比突破50%，达22.3万辆，占比50.2%。比亚迪体
2024年4月汽车市场终端数据：自主崛起、新势力分化、合资承压从整体销量数据来看，4 月汽车终端销量达 169.7 万，同比增长 9.3% ，在目前的价格力度下，这个销售数字差强人意。2
拆解报告：华为750W钛金牌服务器电源华为这款服务器电源型号为PAC750S12-TE，支持220V交流或240V直流输入，输出电压为12V，输出电流为62.5A，输出端设有

史密斯英特康推出新一代“ DaVinci Gen V”测试插座史密斯英特康推出新一代“ DaVinci Gen V”测试插座，为人工智能、6G通信及先进计算应用领域的芯片提供超
意法半导体高集成度低边电流测量放大器简化高准确度电流检测意法半导体的 TSC1801低边电流测量放大器集成了设定增益所需的匹配电阻，从而简化了电路设计，节省了物料清单
意法半导体推出创新的、带有可改变存储配置存储器的车规微控制器新推出的Stellar微控制器内置了xMemory技术，它为正在发展的软件定义汽车以及不断进化的电动汽车架构提供了一
新系列串口EEPROM内置唯一ID码，适合设备识别、溯源和可持续性应用意法半导体 (ST) 推出了一系列内置128位唯一只读ID码 (UID) 的串口EEPROM芯片，以满足市场对产品识别、溯
Vishay新添增强短瞬态脉冲防护性能的经AEC-Q200认证的厚膜功率电这些器件采用夹片式TO-247 封装形式，可直接安装在散热器上，具有高达 75 J/0.1 s的高脉冲吸收能力和 150
凉棚集成Nordic 技术实现Matter over Thread连接为家庭和企业 StruXure+ 凉棚和小屋系列集成 Nordic 的 nRF5340 SoC以提供无缝的 Matter over Thread 连接
智能楼宇技术全球领导者与Nordic Semiconductor携手合作确保楼业界连手推动NR+成为智能楼宇的全球连接标准···
Cadence 率先推出 eUSB2V2 IP 解决方案，助力打造高速连接新范 Cadence 在业内率先推出 eUSB2V2 IP，此 IP 基于先进的台积公司 N3P 工艺，符合最新的嵌入式 USB2 版
纳芯微发布双通道电流检测放大器NSCSA285，赋能工业与能源管理近日，上海 —— 纳芯微电子（简称“纳芯微”）发布全新高精度双通道电流检测放大器NSCSA285系列···
攻克PWM高频瞬态干扰难题！纳芯微发布车规级电流检测放大器NSCSA24 近日，纳芯微发布全新车规级双向电流检测放大器NSCSA240-Q1系列，专为汽车高压PWM系统打造解决方案···
TE Connectivity 推出INMORO系列：致力于满足中国市场需求而打造的连接和传感解决方案提供商泰科电子（TE Connectivity，以下简称 TE）工业事业部隆重推出INMORO 系列，致力于满足中
破解汽车与工业等应用新挑战，TDK展示多传感器融合与AI+发展趋势在新能源汽车应用中，热管理系统既要能高效地冷却和加热电池、电机与OBC等车辆核心部件，确保其处于最佳运行温

热门评论
最新评论

换一换

杂志声明

使用PCIe交换网结构在多主机系统中优化资源部署

PCIe的固有限制

实施方法

操作方法

总结