Graphcore第二代IPU-M2000性能测试出炉，相比A100多个指标提升数倍-EDN 电子技术设计

 今年2月，EE Times评选出“十大AI芯片创企”，其中来自英国的Graphcore凭借其为AI计算而生研发的IPU获选。7月，Graphcore在布里斯托和北京同步推出了两款硬件产品：第二代IPU芯片Colossus MK2 GC200 IPU（简称MK2 IPU），以及包含四颗MK2 IPU，可用于大规模集群系统的IPU-Machine：M2000 （IPU-M2000）。最近，Graphcore公开了IPU-M2000的应用性能测试。这次Benchmark显示，相比A100，在IPU-M2000上，ResNet的吞吐量提升了4倍，ResNeXt的吞吐量提升了5.4倍，EfficientNet的吞吐量达到了18倍，Deep Voice 3达到了13倍。

Graphcore主推的IPU在业界被称为继CPU、GPU以外的第三类AI芯片。今年2月，EE Times评选出“十大AI芯片创企”，其中来自英国的Graphcore凭借其为AI计算而生研发的IPU获选。7月，Graphcore在布里斯托和北京同步推出了两款硬件产品：第二代IPU芯片Colossus MK2 GC200 IPU（简称MK2 IPU），以及包含四颗MK2 IPU，可用于大规模集群系统的IPU-Machine：M2000 （IPU-M2000）。最近，Graphcore公开了IPU-M2000的应用性能测试。这次Benchmark显示，相比A100，在IPU-M2000上，ResNet的吞吐量提升了4倍，ResNeXt的吞吐量提升了5.4倍，EfficientNet的吞吐量达到了18倍，Deep Voice 3达到了13倍。sdWednc

第二代IPU-M2000应用测试性能

IPU-M2000是继英伟达的GPU和谷歌的TPU之后，世界上第三个公开发布的能够训练BERT-Large模型的AI处理器产品。最近公布的应用性能测试中表现优异。sdWednc

sdWednc

这次发布的基于MK2 IPU的IPU-M2000的Benchmark覆盖了很多模型的训练结果，包括典型的CV模型ResNet、基于分组卷积的ResNeXt、EfficientNet、语音模型、BERT-Large等自然语言处理模型，MCMC等传统机器学习模型。其中BERT-Large这样的大型模型或是MCMC这样的传统模型，在一台IPU-POD₆₄这样的系统级产品中训练，相比在2台DGX-A100上训练，也能够实现一定的性能收益。sdWednc

在不同的机器学习训练中，最新IPU-M2000和IPU-POD的具体性能指标

sdWednc

上图展示了BERT-Large端到端的训练时间性能，最上方的是DGX-A100的性能，端到端的训练时间是69.5小时，训练的数据集是维基百科的英文语料，其他训练的参数，基本上是摘录了英伟达的数据。下方是对2个DGX-A100和3个DGX-A100做的一个线性扩展的估计。众所周知，从一个系统到两个系统到三个系统，基本是无法达到完全线性扩展的，所以这边也显示不出A100最佳和最高的性能可能性。最下方可以看到，在IPU-POD₆₄上，PopART BERT-Large的端到端的训练时间只要13.2小时。如此看来，相比1个DGX-A100，BERT-Large能在IPU-POD₆₄上实现5.3倍的提升，相比3个DGX-A100，则能够实现1.8倍的提升。上图右侧有一个价格/功率指示性的比对关系。1个IPU-POD₆₄和3个DGX-A100的功率和价格基本相同，但却能够实现接近两倍的性能提升，这就是非常显著的性能优势。sdWednc

推理优势

此前，EETC曾发表过《AI的训练与推理，会往哪个方向发展？》，文中提到：Graphcore联合创始人兼CEO Nigel Toon先生数度谈到AI“训练（training）和推理（inference）技术本质上没有什么区别”。Nigel Toon表示：训练和推理不应做过分严格的区分，未来部署机器智能才可能是正确的方向。sdWednc

下面我们看看第二代IPU-M2000在推理方面的优势。sdWednc

EfficientNet是2019年谷歌开发的一个模型。EfficientNet的模型尺寸有8个等级，B0是一个模型尺寸比较小的模型、模型尺寸最大的是B7，大概是60兆-70兆，B0是5兆的参数量级。sdWednc

sdWednc

上图横坐标表示吞吐量、纵坐标表示时延。在PyTorch和TensorFlow两种不同的框架下，EfficientNet-B0在1台IPU-M2000上的吞吐量大概可以达到以“万”为单位的级别，时延远远小于5毫秒。而在最新的GPU上，即使在时延最大化的情况下，它的吞吐量也远远小于以“万”为单位的吞吐量级，充分凸显了IPU所具备的时延优势。sdWednc

sdWednc

图中左上角展示了Deep Voice 3的训练性能，该模型训练在IPU上的吞吐量能够达到GPU的13.6倍。右上角展示的是BERT-Large推理上的性能，在双方都处于最低时延的情况下，在IPU上，与A100相比，BERT-Large能够实现3.4倍吞吐量的提升。大家可能会疑惑batch-size比较小的时候A100没有打满，我们把batch-size打大的时候、A100在batch-size可能是等于8的情况之下，它的吞吐量其实是有显著提升的。图中最上面红点，展示的是该模型在IPU-M2000上的最高的吞吐量和时延的性能，图中可以看到该模型在IPU-M2000上的吞吐量能够达到三千多。sdWednc

左下角是LSTM推理的性能展示显示，IPU在时延和吞吐上这两方面都是有相当优势的。右下角展示的是MCMC概率模型训练的性能，MCMC模型是用来估计股票价格的一个评估工具。评估一个股票是不是能够超出大盘的基本股价时，一般都是用一个Alpha因子来表示。如图所示，该模型的训练在IPU-M2000上，比在最新GPU上快大概17倍。sdWednc

计算机视觉

sdWednc

计算机视觉方面，左边是ResNet和EfficientNet的训练性能展示，右边是两个模型的推理性能展示。ResNet-50是一个中等规模的模型、拥有大概20兆的训练参数。EfficientNet-B4也拥有大概20兆的训练参数。两者参数量差不多，但是它们的性能表现有所不同。训练方面，ResNet-50相比A100，大概能实现2.6倍的性能提升，而EfficientNet相比A100能够实现10倍左右的性能提升。这是因为ResNet-50基本上是由卷积组成的，而EfficientNet是由可分离深度卷积组成的，它的卷积核比较小，在调度上的开销和算子的利用率在IPU上可能会有更好的体现。如果算子小、算子比较多，在GPU上的调度开销也会引入跟HDM内存上数据交互的开销，可能会导致了它们的性能大大的折损。这也说明了，在新一代的模型上IPU其实更具普适性。sdWednc

推理方面，ResNet-50和EfficientNet-B0在PyTorch和TensorFlow的性能表现是不相上下的。这也说明了Poplar SDK 1.4中引入的对于PyTorch的支持，在模型运行中没有性能上的损耗。sdWednc

IPU-POD₆₄的横向与纵向扩展

IPU-POD₆₄是16台IPU-M2000组成的一个解决方案。Graphcore已经在全球范围之内实现了该方案的交付。该方案实现了x86和IPU计算的解耦。sdWednc

IPU-POD₆₄是目前市场上非常少见的，可以同时将纵向扩展和横向扩展都做得非常好的AI计算平台产品。sdWednc

纵向扩展是指IPU-POD₆₄可以实现从一台IPU-M2000到一个IPU-POD₁₆（4台IPU-M2000），再到一个IPU-POD₆₄（16台IPU-M2000）进行软件透明扩展。也就是说，编译好的软件在一个IPU-M2000里能用，如果您希望获得16倍的性能，扩展到IPU-POD₆₄，同样的软件也能够运行使用。与之相比，如果使用DGX-A100这样的机器，想要从1个DGX-A100扩展到4个DGX-A100，需要做大量的软件改造。有一个概念叫“分布式的机器学习”，就是要用一个分布式的机器学习框架，对您的算法模型进行相应的改造之后才能够从1个DGX-A100扩展到4个DGX-A100。sdWednc

据沟通，很多头部互联网公司认为当前绝大部分单一工作负载最大不会超过IPU-POD₆₄。也就是说，对于当前最主流的工作负载来说，1个IPU-POD₆₄就能够让绝大多数工程师不需要担心分布式的机器学习、分布式的机器学习框架、分布式的通信，只需一个IPU-POD₆₄就可以进行软件透明扩展。sdWednc

纵向扩展不代表不能做横向扩展。从横向扩展的角度来看，多个IPU-POD₆₄最多可以支持64000个IPU组成的AI计算集群。所以，以最小的IPU-M2000作为一个计算单元，Graphcore可以在横向扩展、纵向扩展两个维度，获得非常好的超级AI计算集群。sdWednc

Graphcore最新动态

据EETC了解，Graphcore最近有一系列的动作，包括Graphcore与阿里云HALO的合作，发布Poplar SDK 1.4，加入MLPerf管理机构MLCommons等等。sdWednc

阿里云在GitHub上开源了HALO。Graphcore是阿里云HALO/ODLA的共建合作伙伴之一，目前在阿里云HALO的GitHub里已经有IPU的完整支持代码库odla_PopArt。这意味着在GitHub下载HALO开源代码就已经可以在IPU上使用了。目前，Graphcore和阿里云也在基于HALO做一些共同的客户落地的事情。sdWednc

sdWednc

Diagram, timelineDescription automatically generated sdWednc

Graphcore与阿里云HALO展开了非常紧密的合作。HALO的初衷和NNFusion一样，想做一个整体的框架，向上跨AI框架，向下通过ODLA这样一个通用的硬件接口对接不同的硬件厂商的芯片。他们的初衷多是希望处理不同模型，比如TensorFlow模型、ONNX的模型、或是PyTorch的模型时，能够将它一键式地在系统上或者是集群上运行起来。sdWednc

此外，Graphcore最近发布了Poplar SDK 1.4，并同时发布了面向IPU的PyTorch产品级版本。sdWednc

sdWednc

同时Graphcore于近期宣布，加入MLPerf管理机构MLCommons。sdWednc

Graphcore将在2021年上半年正式参与MLPerf性能测试，其IPU-POD₆₄也已经在全球范围内发货，包括中国、北美、欧洲以及其它区域。sdWednc

本文为电子技术设计原创文章，未经授权禁止转载。请尊重知识产权，违者本司保留追究责任的权利。

阅读全文，请先

Challey

资深产业分析师

进入专栏

模拟/混合信号/RF

上一篇： 芯片大神 Jim Keller 的硅谷经历是怎样的？AMD、Intel，苹果，特斯拉...... 下一篇： 华为P40下一代P50 Pro新机渲染图曝光

微信扫一扫
一键转发
最前沿的电子设计资讯
请关注“电子技术设计微信公众号”

嵌入式Rust：我们如今身处何方？ Rust对于一般应用开发来说很有意义，但对于嵌入式软件团队来说真的有意义吗？Rust如今的情况如何，它是否就是大家所鼓吹的最美好的解决方案？
毫米波雷达与音频技术重塑汽车驾乘新体验汽车行业的发展正由两大创新领域主导：更为精准可靠的车内感知系统和高质量音频系统。传统方法如增加传感器或音频设备数量，虽可提升性能但会带来成本上升和复杂性增加的问题。
康佳特SMARC模块更新: 全新英特尔酷睿3处理器低功耗 SMARC 模块AI 加速和图形处理性能再次提升···
康佳特针对要求苛刻的实时应用推出新型高性能COM-HPC 基于英特尔酷睿 Bartlett Lake S处理器的模块性能全面提升···
631.2亿美元的市场，创新制造工艺将为柔性电子带来什么？柔性电子设备的新型制造技术正在迅速涌现。有些人可能想知道它们是否比传统方法更好，以及它们什么时候会商业化，它们会影响电子设计工程师未来的创新吗？
创新的FPGA技术实现低功耗、模块化、小尺寸USB解决方本文总结了业界用于高性能 USB 3 设备的一些典型解决方案，并介绍了一种新的架构，这种架构既能节省功耗和面积，又能提高灵活性和易用性···
超薄硅晶圆的演进史让我们一起了解一下历史上是如何通过技术进步和制造工艺的改进，开发出高精度的超薄硅晶圆的···
雷击之后加强我的NAS备份，谨慎遵循3-2-1备份规则？在我之前报道被雷击事故时，我曾提到过，这次被雷击损坏的电子设备中包括一台网络存储设备(NAS)。这次挫折迫使我不能再忽视我数据备份防护中一个长期存在的漏洞···
盘点CES 2025上基于Arm架构的AI创新和技术亮点近期在美国拉斯维加斯举行的 CES 2025 再次彰显了其作为展示最新科技创新的重要平台。今年展会上所呈现的众多前沿产品和新的发布将推动各个行业的变革与发展···
PCI Express Gen5：自动化多通道测试本文将重点介绍用于x16测试的RF开关配置。这些开关型号最多支持18条通道（PCIe最大通常为x16），也可支持更低的通道数···
芯耀辉：从传统IP到IP2.0，AI时代国产IP机遇与挑战齐飞 2024年，集成电路行业在变革与机遇中持续发展。面对全球经济的新常态、技术创新的加速以及市场需求的不断变化，集成电路企业如何在新的一年里保持竞争力并实现可持续发展？
通嘉PD快充适配器高效能及小型化之氮化镓集成方案随着消费者对便携性和高效充电的需求增加，手机厂商和充电器品牌纷纷推出小型化PD快充产品，以满足市场需求···

机器人所需要的传感器有哪些？随着机器人技术的迭代升级，传感器的重要性将持续提升，其功能性、精度和适配性也将得到显著改进，作为机器人不可
2024年墨西哥市场分析，中国品牌崛起 2024年，墨西哥汽车市场以近10%的增长率展现了强劲的复苏势头，中国品牌的崛起为市场注入了新活力，当然现在的政
2025，大众汽车集团在中国如何转型？ 2024 年，大众汽车集团（中国）在复杂多变的市场环境中成功达成销量目标，向客户交付超过 290 万辆汽车，新能源汽车领
国产射频芯片公司汇总对于射频芯片这项卡脖子技术，国内很多公司在这方面努力，而且也做出了不错的成绩。一些射频芯片公司无论从研发
拆解报告：松下电器1200W电吹风松下EH-NW90电吹风内置10万转高速无刷电机，并具备三档风速和四档风温可选。电吹风内置纳诺怡技术，为秀发提供
拆解报告：白牌电动工具电池多功能放电转换器这款白牌多功能放电转换器适配得伟电动工具电池使用，将电动工具电池和放电转换器组装起来，即可组成移动电源和
拆解报告：MOMA猛玛LARK M2无线麦克风 MOMA猛玛LARK M2无线麦克风在外观方面，采用了极富创新的设计，提供了轻盈舒适的佩戴使用体验。发射器采用了夹
阿根廷2024年：销量下滑，北汽增长240.1%。 2024年阿根廷汽车市场在整体销量下滑的背景下，依然展现出多元化的发展趋势···
2025年第3周：全球最快四足机器人发布 2025年将成为机器人产业的关键时间点，业内预期27年人形机器人出货量可达50~100万台。从技术进步到供应链成熟
欧洲2024年汽车市场：微弱复苏和电动化加速并存 2024年，欧盟新车注册量小幅增长0.8%，达到约1060万辆，欧盟+英国+北欧国家的销量为1296.4万台，同比增长0.9%，整个欧
射频微波领域有哪些高质量期刊？今天我们结合网络上的资料一起整理一份射频微波领域的期刊列表，以便同学们投稿时可以选择···
拆解报告：Portal智能屏幕24W电源适配器 Portal智能屏幕电源适配器采用黑色直板机身，外观整洁，配有2米长黑色输出线。适配器采用美规固定插脚，支持100-2

性能飞跃！升级电流传感器NSM201x-P系列赋能汽车三电和光伏逆变器纳芯微推出全新车规级集成电流路径霍尔传感器NSM201x-P系列。该系列产品是对纳芯微已量产的NSM201x系列的完
意法半导体推出STSPIN32G0新列电机驱动器，满足工业自动化和家电市意法半导体STSPIN32系列集成化电机驱动器新增八款产品，满足电动工具、家用电器、工业自动化等应用的低成本、
Melexis推出性能先进的温度传感器，以红外技术创新实现电磁炉智能全球微电子工程公司Melexis宣布，推出专为电磁炉设计的非接触式红外温度传感器芯片MLX90617···
康佳特SMARC模块更新: 全新英特尔酷睿3处理器低功耗 SMARC 模块AI 加速和图形处理性能再次提升···
康佳特针对要求苛刻的实时应用推出新型高性能COM-HPC模块基于英特尔酷睿 Bartlett Lake S处理器的模块性能全面提升···
为汽车安全保驾护航，纳芯微推出基于AMR技术的ABS轮速传感器纳芯微宣布推出全新基于AMR（各向异性磁阻技术）的轮速传感器NSM41xx系列。该系列产品通过集成先进的磁性传感敏
Microchip推出全新Switchtec™ PCIe® 4.0 16通道交换机系列 PCI100x系列器件可为任何需要加速或专用计算的应用提供高性能和成本效益···
RK3576有多强？实测三屏八摄像头轻松搞定-米尔米尔基于他们推出的MYD-LR3576开发板开发了一个3屏异显，8路摄像头输入的DEMO，实测下来，RK3576轻松搞定了该任
SynQor®推荐先进的军用级三相输入UPS（UPS-1500-S-1U-T） SynQor的三相输入UPS电源能使单相负载在电源端呈现出符合MIL-STD-1399-300B标准的清洁、表现良好且几乎零反
村田开发超小尺寸、超低功耗的Type 2GQ GNSS模块，以匠心品质助在几年前，定位系统充斥于生活方方面面的情节还仅见于各式的科幻影片，而今具备这一功能的产品已经以各种形态步
瑞萨推出性能卓越的新型MOSFET 瑞萨全新晶圆技术可以帮助MOSFET实现导通电阻降低30%、栅漏电荷减少40%、封装尺寸缩小50%的目标···
加特兰集成 Cadence Tensilica ConnX 220 DSP 全面升级汽 ConnX 220 DSP 集成至基于下一代 Andes SoC 的加特兰雷达解决方案后，将带来显著优势，包括提高灵活性、

热门评论
最新评论

换一换

杂志声明

Graphcore第二代IPU-M2000性能测试出炉，相比A100多个指标提升数倍

第二代IPU-M2000应用测试性能

在不同的机器学习训练中，最新IPU-M2000和IPU-POD的具体性能指标

推理优势

计算机视觉

IPU-POD64的横向与纵向扩展

Graphcore最新动态

IPU-POD₆₄的横向与纵向扩展