小型AI系统也要比性能！MLPerf发表TinyML测试基准-EDN 电子技术设计

 产业联盟MLCommons近日发表了专为TinyML系统设计的新性能指标，同时也公布了第一次使用该MLPerf Tiny指标进行的推论系统跑分结果。

机器学习(ML)系统性能测试基准MLPerf的幕后推手、产业联盟MLCommons近日发表了专为TinyML系统设计的新性能指标，同时也公布了第一次使用该MLPerf Tiny指标进行的推论系统跑分结果。BfSednc

MLPerf已经为高性能运算(HPC)系统、资料中心以及行动装置等级的系统提供性能测试基准，新的TinyML系统性能基准，则是专为那些在资源极度受限环境中执行机器学习工作负载的装置所设计。MLCommons执行总监David Kanter表示，现在MLPerf基准可涵盖“微瓦(microwatts)到千瓩(megawatts)等级的机器学习系统。BfSednc

他指出：“如果你检视一些我们的训练以及HPC性能测试基准，HPC基准可在全球最大超级电脑上的1万6,000个节点上执行；在Tiny基准方面，则是关于我们如何量测那些最小、最低功耗的装置(参考下图)。” BfSednc

BfSednc

MLPerf性能测试基准的涵盖范围从TinyML装置到大型资料中心设备。(图片来源：MLCommons)BfSednc

通常TinyML系统意味着以嵌入式微控制器/处理器在感测器节点执行感测器资料推论的系统，可能是来自麦克风、摄影机等感测装置的资料。一个这种等级的典型神经网路装置可能资料量只有100kB或更少，而且受限于电池电量。BfSednc

尽管TinyML并没有明确的定义，该名词通常是指以微控制器为基础的系统；MLPerf已经将之延伸了一点点，因此也涵盖包括Raspberry Pi在内的系统。MLPerf Tiny推论性能测试基准工作小组主席、美国哈佛大学(Harvard University)教授Vijay Janapa Reddi则表示，开发这个领域的性能测试基准是一项挑战。BfSednc

“任何推论系统都有复杂的堆叠，但在TinyML，所有的东西都是与感测器资料──音讯、视觉、惯性量测单元(IMU)──有关，生态系统特别复杂；”Janapa Reddi表示：“在嵌入式领域特别具挑战性，是因为大多数的硬体有其客制化工具链…这使得性能基准测试极具挑战。我们必须从头特制很多基础架构，那不是能轻易从MLPerf推论性能基准借用的。”BfSednc

他补充指出，有鉴于该堆叠的所有部分都有广泛的创新，要定义一个固定的性能测试基准以有效展现那些硬体、软体、工具以及演算法的创新，在TinyML领域是特别大的挑战。BfSednc

工作负载选择

MLPerf工作小组是与嵌入式微处理器性能测试基准联盟(Embedded Microprocessor Benchmark Consortium，EEMBC)合作开发TinyML的性能测试基准，利用了EEMBC的测试工具(EnergyRunner框架)，MLPerf工作小组则是定义工作负载、规则以及性能测试基准。BfSednc

与其他的MLPerf性能测试基准一样，各组织能提交执行一个或多个不同工作负载的硬体与软体系统跑分结果，但TinyML性能基准要支援多样性的应用案例，让系统可选择工作负载来呈现常见的应用会特别困难。为此，MLPerf Tiny推论工作小组将之缩小为四种工作负载：BfSednc

关键字识别(Keyword spotting) ──利用Google的语音指令资料集(Speech Commands Dataset)，以DS-CNN模型进行有限词汇的语音识别。
异常侦测(Anomaly detection) ──利用机器以Deep Autoencoder模型运作ToyADMOS声音资料集，进行音讯时间序列异常侦测。
视觉唤醒词(Visual wake words) ──这是一个两类别影像分类的工作负载，影像被区分为“人”或“非人”，利用MobileNetV1 0.25X模型执行视觉唤醒词资料集(Visual Wake Words Dataset )。
影像分类(Image classification) ──以ResNet-8模型进行CIFAR10资料集的多类别(10类)影像分类。

如同其他MLPerf性能测试基准，MLPerf Tiny推论基准也有“封闭”与“开放”两种赛程(division)，以尝试提供相似系统的可比性，还有展示创新方法的灵活性；此外，也让提交者展示其附加价值，无论他们要聚焦在堆叠的哪一个部份。由MLPerf工作小组定案的性能指标是既定预测准确度下的延迟性，以及既定预测准确度下的功耗。BfSednc

该基准的延迟性分数是必选项，功耗量测则是可选的。但因为TinyML系统通常会在功耗与性能之间有谨慎的平衡折衷，我们是否真的能在不同时看到两种指标的情况下，得到一个清晰的系统性能评分结果？BfSednc

对此，MLCommons的Kanter表示：“我们把这个版本的测试基准叫做0.5版，有部份原因是因为这是我们第一次的MLPerf Tiny推论跑分结果。取得结果、订定规则以及打造性能测试基准套件实际上是非常重要的任务，而在其上产生功耗/能耗结果又添加了一层复杂性…”BfSednc

“我坚信要先学爬、再学会走路，然后才能跑，要让事情开始、动起来，然后再最佳化、或者添加一些额外的能耗/功耗量测复杂性；”他接着指出： “我想，在我们下一轮的跑分结果中，应该会看到更多能耗量测。”BfSednc

Janapa Reddi也同意以上观点，补充指出该TinyML测试基准将会随着产业进展更进一步提供清晰度；“这是一个还在萌芽的领域，正尝试找到立足点。我们可以等个三年让它成熟，因为在不同地方都会有大量的TOPS以及每瓦TOPS数字；然后我们可以尝试进行某种程度的标准化，或者从一开始就与产业界合作，协助他们设定一个合理的方向…”BfSednc

他表示：“对我来说，这与确切的数字或系统无关，更多是关于为这个社群提供清晰度与能见度，让他们能加速进展。”BfSednc

BfSednc

TinyML系统的技术堆叠相当复杂。(图片来源：MLCommons) BfSednc

TinyML领域厂商情况与资料中心系统业者迥异，有更多新创公司以及中小型企业。MLPerf的TinyML工作小组共同主席Colby Banbury表示，他们也将这个特性纳入了考量；“我们在设计测试基准的一开始就想到这个，因此特别着重参考实例并尝试构建出来。我认为其重要性程度在先前几代的MLPerf推论基准中不一定存在，因为没有那么多需求。”BfSednc

由工作小组提供的参考实例是一组所有工作负载都是在意法半导体(ST) Nucleo-L4R5ZI开发板上执行的延迟性与功耗跑分；选择该开发板是因为其开放平台、广泛可取得性以及成本可负担性。该开发板采用STM32 Arm Cortex-M4微控制器，如果有需要，完整的实例能提供未来提交者使用，作为他们自己的系统的起跑点。BfSednc

Banbury举例指出，理论上，一家软体供应商能采用该参考实例堆叠，更换为他们自己特定的零组件并相当容易地执行。BfSednc

第一轮跑分结果

MLPerf Tiny推论性能测试基准的第一轮跑分结果，在封闭赛程中有4套系统提交分数(包括参考系统)，开放赛程则是有一套系统提交份数。在封闭赛程中，美国软体开发商Latent AI提供了执行在Raspberry Pi的两套纯软体解决方案，该公司不挑硬体的Latent AI Efficient Inference Platform (LEIP)软体开发套件能用以最佳化运算、能耗与记忆体效率。BfSednc

Latent AI提交的4种工作负载延迟性分数都分别以FP32与INT8精度模型来跑分，执行关键字识别工作负载的延迟性结果为0.39 ms (FP32模型)或0.42 ms (INT8模型)，而参考系统的结果是181.92 ms。中国的一家研究机构鹏城实验室(Peng Cheng Laboratory)所提交的系统，是将4种工作负载的跑分作为其TinyML应用自制RISC-V微控制器元件的概念验证，该系统的关键字识别执行结果为325.63 ms，参考实例则为181.92 ms。BfSednc

另一家美国业者Syntiant所提交的系统是唯一使用了硬体加速器的，在执行关键字识别任务的延迟为5.95 ms (参考实例系统的延迟为181.92 ms)。该公司的NDP120系统单晶片就是为了关键字识别所设计，采用Arm Cortex-M0处理器CPU核心，加上Syntiant的Core 2加速器。BfSednc

在开放赛程只有hls4ml一个提交系统；hls4ml实际上是一个神经网路最佳化工作流程，是为了欧洲核子研究组织(CERN)的大型强子对撞机(Large Hadron Collider)所开发，现在则是由一个科研社群Fast Machine Learning for Science负责开发。hls4ml最佳化模型以双核心的Arm Cortex-A9处理器以及Xilinx FPGA加速器执行，在影像分类工作负载的延迟为7.9 ms，准确度77%；同样的系统执行异常侦测工作负载的延迟为0.096 ms，准确度82%。BfSednc

除了参考实例，MLCommons公布的第一轮TinyML系统性能测试不包含能耗表现，完整的跑分结果请参考此连结。BfSednc

(原文发表于ASPENCORE旗下EDN姐妹媒体EETimes，参考链接：MLPerf Launches TinyML Benchmark for Smallest AI Systems，by Sally Ward-Foxton；编译：Judith Cheng)BfSednc

责编：DemiBfSednc

本文为电子技术设计原创文章，未经授权禁止转载。请尊重知识产权，违者本司保留追究责任的权利。

阅读全文，请先

产业前沿人工智能

上一篇： 在SiC FET的帮助下再次发现完美开关 下一篇： C代码的意外

微信扫一扫
一键转发
最前沿的电子设计资讯
请关注“电子技术设计微信公众号”

使用MSO 5/6内置AWG进行功率半导体器件的双脉冲测试在本文中，宽禁带功率器件供应商Qorvo与Tektronix合作，基于实际的SiC被测器件 (DUT)，描述了实用的解决方案···
嵌入式Rust：我们如今身处何方？ Rust对于一般应用开发来说很有意义，但对于嵌入式软件团队来说真的有意义吗？Rust如今的情况如何，它是否就是大家所鼓吹的最美好的解决方案？
631.2亿美元的市场，创新制造工艺将为柔性电子带来什么？柔性电子设备的新型制造技术正在迅速涌现。有些人可能想知道它们是否比传统方法更好，以及它们什么时候会商业化，它们会影响电子设计工程师未来的创新吗？
NFC防伪技术：削弱假货对奢侈品行业的影响打击假冒伪劣最终需要奢侈品行业改进其产品认证方法。但是，随着越来越多的假冒产品不断涌入市场，奢侈品品牌该如何保护自己的知识产权和实体产品呢？
PCI Express Gen5：自动化多通道测试本文将重点介绍用于x16测试的RF开关配置。这些开关型号最多支持18条通道（PCIe最大通常为x16），也可支持更低的通道数···
为什么紫外线固化对于高质量电子产品至关重要？粘合剂粘接是电子产品制造中一个小而关键的部分。紫外线固化可提高该工艺的效率、耐用性和可靠性。
深入拆解一个Godox相机闪光灯发射器，富士专用在2024年三月份，著名的二手影像设备零售商KEH就举行了一次定期的“库存清理”活动，这次活动对其部分仓库库存提供15%的折扣。其中吸引我注意的是一个“Godox X1T-F TTL无线闪光灯触发发射器···
通嘉PD快充适配器高效能及小型化之氮化镓集成方案随着消费者对便携性和高效充电的需求增加，手机厂商和充电器品牌纷纷推出小型化PD快充产品，以满足市场需求···
横向对比考毕兹振荡器和克拉泼振荡器我们之前在“一起来简单聊聊考毕兹振荡器”和“再来谈谈克拉泼振荡器，和考毕兹振荡器有何不同？”中分别研究过这两个振荡器。而对这两个振荡器进行横向对比也是十分有必要的···
拆解一个Geek Bar Pulse电子烟，拆到最后竟然还能亮？电子烟(又称“vape”)的使用量在迅速增长，无论是新用户还是现有的香烟、雪茄、烟斗和嚼烟用户都在使用···
基于SiC的高电压电池断开开关的设计注意事项在本文中，我们将讨论在选择功率半导体技术和定义高电压、高电流电池断开开关的半导体封装时的一些设计注意事项，以及表征系统的寄生电感和过流保护限值的重要性···
来看看在这个电源，能通过单个PWM输出进行计算机编程可变稳压电源是电子实验室工作台上的一种便捷工具，能产生极性相反的相等电压输出的对称型电源更是如此···

机器人所需要的传感器有哪些？随着机器人技术的迭代升级，传感器的重要性将持续提升，其功能性、精度和适配性也将得到显著改进，作为机器人不可
2024年墨西哥市场分析，中国品牌崛起 2024年，墨西哥汽车市场以近10%的增长率展现了强劲的复苏势头，中国品牌的崛起为市场注入了新活力，当然现在的政
2025，大众汽车集团在中国如何转型？ 2024 年，大众汽车集团（中国）在复杂多变的市场环境中成功达成销量目标，向客户交付超过 290 万辆汽车，新能源汽车领
国产射频芯片公司汇总对于射频芯片这项卡脖子技术，国内很多公司在这方面努力，而且也做出了不错的成绩。一些射频芯片公司无论从研发
拆解报告：松下电器1200W电吹风松下EH-NW90电吹风内置10万转高速无刷电机，并具备三档风速和四档风温可选。电吹风内置纳诺怡技术，为秀发提供
拆解报告：白牌电动工具电池多功能放电转换器这款白牌多功能放电转换器适配得伟电动工具电池使用，将电动工具电池和放电转换器组装起来，即可组成移动电源和
拆解报告：MOMA猛玛LARK M2无线麦克风 MOMA猛玛LARK M2无线麦克风在外观方面，采用了极富创新的设计，提供了轻盈舒适的佩戴使用体验。发射器采用了夹
阿根廷2024年：销量下滑，北汽增长240.1%。 2024年阿根廷汽车市场在整体销量下滑的背景下，依然展现出多元化的发展趋势···
2025年第3周：全球最快四足机器人发布 2025年将成为机器人产业的关键时间点，业内预期27年人形机器人出货量可达50~100万台。从技术进步到供应链成熟
欧洲2024年汽车市场：微弱复苏和电动化加速并存 2024年，欧盟新车注册量小幅增长0.8%，达到约1060万辆，欧盟+英国+北欧国家的销量为1296.4万台，同比增长0.9%，整个欧
射频微波领域有哪些高质量期刊？今天我们结合网络上的资料一起整理一份射频微波领域的期刊列表，以便同学们投稿时可以选择···
拆解报告：Portal智能屏幕24W电源适配器 Portal智能屏幕电源适配器采用黑色直板机身，外观整洁，配有2米长黑色输出线。适配器采用美规固定插脚，支持100-2

性能飞跃！升级电流传感器NSM201x-P系列赋能汽车三电和光伏逆变器纳芯微推出全新车规级集成电流路径霍尔传感器NSM201x-P系列。该系列产品是对纳芯微已量产的NSM201x系列的完
意法半导体推出STSPIN32G0新列电机驱动器，满足工业自动化和家电市意法半导体STSPIN32系列集成化电机驱动器新增八款产品，满足电动工具、家用电器、工业自动化等应用的低成本、
Melexis推出性能先进的温度传感器，以红外技术创新实现电磁炉智能全球微电子工程公司Melexis宣布，推出专为电磁炉设计的非接触式红外温度传感器芯片MLX90617···
康佳特SMARC模块更新: 全新英特尔酷睿3处理器低功耗 SMARC 模块AI 加速和图形处理性能再次提升···
康佳特针对要求苛刻的实时应用推出新型高性能COM-HPC模块基于英特尔酷睿 Bartlett Lake S处理器的模块性能全面提升···
为汽车安全保驾护航，纳芯微推出基于AMR技术的ABS轮速传感器纳芯微宣布推出全新基于AMR（各向异性磁阻技术）的轮速传感器NSM41xx系列。该系列产品通过集成先进的磁性传感敏
Microchip推出全新Switchtec™ PCIe® 4.0 16通道交换机系列 PCI100x系列器件可为任何需要加速或专用计算的应用提供高性能和成本效益···
RK3576有多强？实测三屏八摄像头轻松搞定-米尔米尔基于他们推出的MYD-LR3576开发板开发了一个3屏异显，8路摄像头输入的DEMO，实测下来，RK3576轻松搞定了该任
SynQor®推荐先进的军用级三相输入UPS（UPS-1500-S-1U-T） SynQor的三相输入UPS电源能使单相负载在电源端呈现出符合MIL-STD-1399-300B标准的清洁、表现良好且几乎零反
村田开发超小尺寸、超低功耗的Type 2GQ GNSS模块，以匠心品质助在几年前，定位系统充斥于生活方方面面的情节还仅见于各式的科幻影片，而今具备这一功能的产品已经以各种形态步
瑞萨推出性能卓越的新型MOSFET 瑞萨全新晶圆技术可以帮助MOSFET实现导通电阻降低30%、栅漏电荷减少40%、封装尺寸缩小50%的目标···
加特兰集成 Cadence Tensilica ConnX 220 DSP 全面升级汽 ConnX 220 DSP 集成至基于下一代 Andes SoC 的加特兰雷达解决方案后，将带来显著优势，包括提高灵活性、

热门评论
最新评论

换一换

杂志声明

小型AI系统也要比性能！MLPerf发表TinyML测试基准

工作负载选择

第一轮跑分结果