你的AI芯片有自己的DNN吗？-EDN 电子技术设计

 为了让AI加速器在最短延迟内达到最佳精准度，特别是在自动驾驶车中，TFLOP已经成为许多所谓大脑芯片的关键指针，然而，有专家认为这种野蛮处理方式并不可持续…

为了让人工智能(AI)加速器在最短延迟内达到最佳精准度，特别是在自动驾驶车(AV)中，TFLOP(兆次浮点运算)已经成为许多所谓大脑芯片的关键指针。这场竞赛的选手包括Nvidia的Xavier、Mobileye的EyeQ5、特斯拉(Tesla)的全自动驾驶(FSD)计算机芯片，以及NXP-Kalray芯片。5y9ednc

然而，有专家认为这种野蛮处理方式并不可持续。在EE Times的一次独家专访中，DeepScale执行长Forrest Iandola提出其不可持续的理由，是因为AI硬件设计师所持有的许多常见假设已经过时。随着AI应用日益增多，AI供货商从中积累更多的经验，这导致不同的AI任务开始需求不同的技术方法。如果事实的确如此，AI使用者购买AI技术的方式将会改变，供货商也必将做出回应。5y9ednc

20191008NT31P1 5y9ednc

DeepScale执行长Forrest Iandola5y9ednc

Iandola表示，就拿神经网络架构搜寻(NAS)为例，其快速发展不仅加快优化深度神经网络(DNN)的搜寻过程，并降低这一过程的成本。他相信有一种方法可以“在目标任务和目标运算平台上建立最低延迟、最高精准度的DNN，”而不是依赖于更大的芯片来处理所有的AI任务。5y9ednc

Iandola设想未来AI芯片或传感器系统(如计算机视觉、雷达或光达)供货商不仅提供硬件，而且还会提供自己的高速、高效的DNN——为应用而设计的DNN架构。任何供货商都会为不同的运算平台匹配各自所需的DNN，如果事实真是如此，那AI竞赛中的所有赌注都将失效。5y9ednc

需要明确的是，目前无论是芯片公司还是传感器供货商都没有提出上述前景。甚至很少有人在特定硬件上运作有针对性AI任务的可能性。5y9ednc

Iandola及其DeepScale团队最近设计了一系列DNN模型，称为“SqueezeNAS”。在最近的一篇报告中，他们声称，当在目标平台上搜寻延迟时，SqueezeNAS“可以建立更快、更准确的模型”。这篇报告推翻了AI小区先前对NAS、乘积累加(MAC)运算和将ImageNet精确度应用于目标任务时所做的一些假设。5y9ednc

DeepScale于2015年由Iandola和Kurt Keutzer教授共同创立，是一家位于加州山景城的新创公司，致力于开发“微型DNN”。两位联合创始人曾在加州大学柏克莱大学分校共事，DeepScale因其快速高效的DNN研究而在科学界备受推崇。5y9ednc

手工设计(Manual designs)

要想真正理解机器学习在计算机视觉方面的最新进展的意义，需要了解其发展历史。5y9ednc

还记得AlexNet网络结构模型在2012年赢得ImageNet影像分类竞赛吗？这为研究人员打开了竞争的大门，让他们专注于ImageNet研究，并寻找能够在计算机视觉任务上达到最高精准度的DNN，以此开展竞争。5y9ednc

20191008NT31P2 5y9ednc

ImageNet分类错误统计。(数据源：ResearchGate)5y9ednc

通常，这些计算机视觉研究人员依靠专家工程师，他们会手工设计快速且高精准度的DNN架构。5y9ednc

从2012年到2016年，他们提高了计算机视觉的准确性，但都是透过大幅增加执行DNN所需资源来实现这一目标。Iandola解释，例如，赢得2014年ImageNet比赛冠军的VGGNet，其使用的运算量是AlexNet的10倍，参数是AlexNet的2倍。5y9ednc

到2016年，学术研究界发现利用增加DNN的资源需求来提高准确性“不可持续”。SqueezeNet便是研究人员寻找的众多替代方案之一，由Iandola及其同事在2016年发表，它展示出在微小预算(低于5MB)参数下ImageNet的“合理的准确性”。5y9ednc

Squeezenet引发了两个重大变化。相对于SqueezeNet和其他早期运算而言，MobileNetV1能够大幅度减少MAC的数量，Shufflenetv1是为行动端CPU实现低延迟而优化的DNN。5y9ednc

利用机器学习改善机器学习

如前所述，所有这些先进DNN都是透过手工设计和调整神经网络架构开发而成。由于手工流程需要专业的工程师大量的除错，这很快就成为一个成本太高、耗时太久的提议。5y9ednc

因而基于机器学习，实现人工神经网络设计自动化的理念，NAS应运而生。NAS是一种搜寻最佳神经网络架构的算法，并改变了AI格局。Iandola称，“到2018年，NAS已经开始构建能够以较低延迟运行的DNN，并且比以前手工设计的DNN产生更高的准确性。”5y9ednc

强化学习(Reinforcement Learning)

随后，计算机视觉界开始使用基于机器学习的强化方法——强化学习。换句话说，“机器学习得到回馈来改善机器学习，”Iandola解释。在基于强化学习的NAS下，未经训练的强化学习获得建议，指定层数和参数来训练DNN架构。一旦对DNN进行训练，训练运作的结果将作为回馈，从而推动强化学习执行更多DNN来展开训练。5y9ednc

经证明，基于强化学习的NAS是有效的。Google MnasNet就是一个很好的例子，它在ImageNet延迟和准确性方面都优于ShuffleNet。但它也有一个关键的弱点：成本太高。基于强化学习的搜寻通常需要数千个GPU天(GPU day)，以训练数百乃至数千个不同的DNN，才能生成理想的设计。“Google负担得起，”Iandola表示，但大多数其他公司负担不起。5y9ednc

现实地说，一个基于强化学习的NAS要训练一千个DNN，每个DNN通常需要一个GPU天。考虑到目前亚马逊(Amazon)云端服务平台的价格，Iandola估计，一个使用基于强化学习的NAS搜寻所花费的云端运算时间可能耗资高达7万美元。5y9ednc

超级网络(Supernetwork)

在这种情况下，去年底出现了一种新的NAS类型，称为基于“超级网络”的搜寻。它的典型代表包括FBNet(Facebook柏克莱网络)和SqueezNet。5y9ednc

20191008NT31P3 5y9ednc

搜寻时间减少100倍。(数据源：DeepScale)5y9ednc

Iandola解释：“超级网络采用一步到位的方法，而不是培训1,000个独立的DNN。”例如，一个DNN有20个模块，每个模块有13个选项。若为每个模块选择一个最喜欢的选项，“你正在以10个DNN训练运作花费为代价，一次性训练一个汇集了千兆种DNN设计的DNN，”Iandola解释。5y9ednc

结果显示，基于超级网络的NAS可以在10个GPU天的搜寻时间内建立DNN，其延迟和准确性优于MnasNet。“这让搜寻成本从7万多美元减少到大约700美元的亚马逊云端服务GPU时间，”Iandola说。5y9ednc

“10个GPU天”的搜寻时间相当于在一台如衣柜般大小的8 GPU机器上花费一天的时间，”Iandola解释。5y9ednc

20191008NT31P4 5y9ednc

基于强化学习与基于超级网络的NAS比较。(数据源：DeepScale)5y9ednc

过时的假设

机器学习的简短历史向我们展示神经结构搜寻的出现如何为计算机视觉研究奠定基础。但是在这个过程中，它也反驳了研究团体早期的一些假设，Iandola指出。5y9ednc

那么，哪些假设需要纠正呢？5y9ednc

Iandola称，大多数AI系统设计者认为，ImageNet分类中最精确的神经网络可以为目标任务提供最精确的骨干网络。但计算机视觉包括许多AI任务——从目标检测、分割和3D空间到目标追踪、距离估计和自由空间等。“并非所有任务都是平等的，”Iandola强调。5y9ednc

ImageNet的准确性与目标任务的准确性没有太紧密的关联。“这没法保证。”他说。5y9ednc

来看由Iandola团队创建的SqueezeNet。Iandola解释，这是一个小型的神经网络，它的ImageNet分类精准度明显低于VGG，但在“用于辨识一组影像中相似斑块的任务”时，它比VGG更准确。5y9ednc

随着分类任务达到极限，Iandola坚信是时候为不同的任务设计不同的神经网络了。5y9ednc

另一个普遍的假设是“在目标运算平台上减少MAC将产生更低的延迟。”然而，最近的研究说明，减少MAC与减少延迟并无太大关联。“拥有较少MAC的神经网络并不总是能够实现较低的延迟，”Iandola指出。5y9ednc

在Iandola的SqueezeNAS报告中，他坚持认为，不仅仅是不同的AI任务需要不同的DNN。为目标运算平台(如CPU、GPU或TPU的特定版本)选择合适的DNN也非常重要。5y9ednc

例如，他引用了为不同智能型手机优化网络的FBNet作者的话。他们发现DNN在iPhonex上运作得很快，但在三星Galaxy S8上执行得很慢。在报告中，Iandola的团队总结，“即使MAC的数量保持不变，不同的卷积维数也会根据处理器和核心实现决定运作得更快或更慢。”5y9ednc

对自动驾驶的影响

今天，DeepScale已经与多家汽车供货商建立了合作关系，包括Visteon、Hella Aglaia Mobile Vision GmbH和其他未透露名称的公司。DeepScale一直在开发微型DNN，该公司声称，他们在保证最先进的性能的同时，它们需要的运算量更少。5y9ednc

在SqueezNas的报告中，Iandola和他的同事解释，其团队使用基于超级网络的NAS来设计一个用于语义分割的DNN，用于辨识道路、车道、车辆和其他物体的精确形状等具体任务。“我们对NAS系统进行配置，以优化Cityscapes语义分割数据集的高精准度，同时在小型车辆级运算平台上实现低延迟。”5y9ednc

随着SqueezNAS的发展，DeepScale对自己的定位是：在优化DNN、AI硬件和特定AI任务之间的协同关系方面成为先行者。5y9ednc

随着AI芯片即将席卷市场，Iandola认为系统设计师必须明智地选择加速器。他们应该确切地考虑硬件应该执行哪种AI任务，以及硬件加速器应该在哪种神经网络上运作。5y9ednc

安全摄影机、自动驾驶车和智能型手机都将使用AI芯片。考虑到每个系统所需的速度、准确性、延迟和应用程序大不相同，确定合适的硬件和NAS就变得至关重要。5y9ednc

Iandola表示，对于OEM车厂来说，要把一个测试版自动驾驶车变成一个商业产品，必须把目前储存在自动驾驶车后行李箱中的刀锋服务器抽取出来。Iandola预测，汽车制造商可能会要求硬件芯片公司提供适合硬件平台的优化DNN。5y9ednc

对于Nvidia这样的公司来说，这可能不成问题，因为它的GPU得到了一个大型软件生态系统的支持。然而，大多数其他AI硬件供货商将会吓出一身冷汗。5y9ednc

此外，随着一系列新的传感器——摄影机、光达和雷达——被设计进自动驾驶车，汽车OEM将面临一些残酷的现实，例如，每个传感器可能使用不同类型的神经网络。另一个例子是，不同品牌设计的光达使用不同的AI硬件。Iandola指出，“今天，无论是传感器供货商还是AI处理器公司都没有提供针对其硬件进行优化推荐的神经网络。”5y9ednc

Iandola表示，OEM车厂和一级零组件供货商将开始要求优化DNN，以匹配特定硬件和AI任务，这将无法避免。“我们相信，使用NAS优化目标运算平台上的低延迟变得越来越重要。”5y9ednc

随着基于超级网络的NAS出现，NAS的成本已经在下降。因此，现在可能是时候让硬件供货商开始寻找自己的优化DNN。当被问及DeepScale是否计划透过合作、授权或为AI硬件公司开发优化DNN来填补这一缺口时，Iandola说，“我们还没有真正考虑过这个问题。”5y9ednc

(参考原文： Does Your AI Chip Have Its Own DNN?，本文同步刊登于EE Times Taiwan 杂志10月刊)5y9ednc

阅读全文，请先

Junko Yoshida

ASPENCORE全球联席总编辑，首席国际特派记者。曾任把口记者（beat reporter）和EE Times主编的Junko Yoshida现在把更多时间用来报道全球电子行业，尤其关注中国。她的关注重点一直是新兴技术和商业模式，新一代消费电子产品往往诞生于此。她现在正在增加对中国半导体制造商的报道，撰写关于晶圆厂和无晶圆厂制造商的规划。此外，她还为EE Times的Designlines栏目提供汽车、物联网和无线/网络服务相关内容。自1990年以来，她一直在为EE Times提供内容。

进入专栏

模拟/混合信号/RF

上一篇： 深入理解功率MOSFET数据表(下) 下一篇： 未来iphone镜头或不再凸起

微信扫一扫
一键转发
最前沿的电子设计资讯
请关注“电子技术设计微信公众号”

使用MSO 5/6内置AWG进行功率半导体器件的双脉冲测试在本文中，宽禁带功率器件供应商Qorvo与Tektronix合作，基于实际的SiC被测器件 (DUT)，描述了实用的解决方案···
嵌入式Rust：我们如今身处何方？ Rust对于一般应用开发来说很有意义，但对于嵌入式软件团队来说真的有意义吗？Rust如今的情况如何，它是否就是大家所鼓吹的最美好的解决方案？
631.2亿美元的市场，创新制造工艺将为柔性电子带来什么？柔性电子设备的新型制造技术正在迅速涌现。有些人可能想知道它们是否比传统方法更好，以及它们什么时候会商业化，它们会影响电子设计工程师未来的创新吗？
创新的FPGA技术实现低功耗、模块化、小尺寸USB解决方本文总结了业界用于高性能 USB 3 设备的一些典型解决方案，并介绍了一种新的架构，这种架构既能节省功耗和面积，又能提高灵活性和易用性···
NFC防伪技术：削弱假货对奢侈品行业的影响打击假冒伪劣最终需要奢侈品行业改进其产品认证方法。但是，随着越来越多的假冒产品不断涌入市场，奢侈品品牌该如何保护自己的知识产权和实体产品呢？
盘点CES 2025上基于Arm架构的AI创新和技术亮点近期在美国拉斯维加斯举行的 CES 2025 再次彰显了其作为展示最新科技创新的重要平台。今年展会上所呈现的众多前沿产品和新的发布将推动各个行业的变革与发展···
PCI Express Gen5：自动化多通道测试本文将重点介绍用于x16测试的RF开关配置。这些开关型号最多支持18条通道（PCIe最大通常为x16），也可支持更低的通道数···
为什么紫外线固化对于高质量电子产品至关重要？粘合剂粘接是电子产品制造中一个小而关键的部分。紫外线固化可提高该工艺的效率、耐用性和可靠性。
深入拆解一个Godox相机闪光灯发射器，富士专用在2024年三月份，著名的二手影像设备零售商KEH就举行了一次定期的“库存清理”活动，这次活动对其部分仓库库存提供15%的折扣。其中吸引我注意的是一个“Godox X1T-F TTL无线闪光灯触发发射器···
芯耀辉：从传统IP到IP2.0，AI时代国产IP机遇与挑战齐飞 2024年，集成电路行业在变革与机遇中持续发展。面对全球经济的新常态、技术创新的加速以及市场需求的不断变化，集成电路企业如何在新的一年里保持竞争力并实现可持续发展？
通嘉PD快充适配器高效能及小型化之氮化镓集成方案随着消费者对便携性和高效充电的需求增加，手机厂商和充电器品牌纷纷推出小型化PD快充产品，以满足市场需求···
横向对比考毕兹振荡器和克拉泼振荡器我们之前在“一起来简单聊聊考毕兹振荡器”和“再来谈谈克拉泼振荡器，和考毕兹振荡器有何不同？”中分别研究过这两个振荡器。而对这两个振荡器进行横向对比也是十分有必要的···

机器人所需要的传感器有哪些？随着机器人技术的迭代升级，传感器的重要性将持续提升，其功能性、精度和适配性也将得到显著改进，作为机器人不可
2024年墨西哥市场分析，中国品牌崛起 2024年，墨西哥汽车市场以近10%的增长率展现了强劲的复苏势头，中国品牌的崛起为市场注入了新活力，当然现在的政
2025，大众汽车集团在中国如何转型？ 2024 年，大众汽车集团（中国）在复杂多变的市场环境中成功达成销量目标，向客户交付超过 290 万辆汽车，新能源汽车领
国产射频芯片公司汇总对于射频芯片这项卡脖子技术，国内很多公司在这方面努力，而且也做出了不错的成绩。一些射频芯片公司无论从研发
拆解报告：松下电器1200W电吹风松下EH-NW90电吹风内置10万转高速无刷电机，并具备三档风速和四档风温可选。电吹风内置纳诺怡技术，为秀发提供
拆解报告：白牌电动工具电池多功能放电转换器这款白牌多功能放电转换器适配得伟电动工具电池使用，将电动工具电池和放电转换器组装起来，即可组成移动电源和
拆解报告：MOMA猛玛LARK M2无线麦克风 MOMA猛玛LARK M2无线麦克风在外观方面，采用了极富创新的设计，提供了轻盈舒适的佩戴使用体验。发射器采用了夹
阿根廷2024年：销量下滑，北汽增长240.1%。 2024年阿根廷汽车市场在整体销量下滑的背景下，依然展现出多元化的发展趋势···
2025年第3周：全球最快四足机器人发布 2025年将成为机器人产业的关键时间点，业内预期27年人形机器人出货量可达50~100万台。从技术进步到供应链成熟
欧洲2024年汽车市场：微弱复苏和电动化加速并存 2024年，欧盟新车注册量小幅增长0.8%，达到约1060万辆，欧盟+英国+北欧国家的销量为1296.4万台，同比增长0.9%，整个欧
射频微波领域有哪些高质量期刊？今天我们结合网络上的资料一起整理一份射频微波领域的期刊列表，以便同学们投稿时可以选择···
拆解报告：Portal智能屏幕24W电源适配器 Portal智能屏幕电源适配器采用黑色直板机身，外观整洁，配有2米长黑色输出线。适配器采用美规固定插脚，支持100-2

性能飞跃！升级电流传感器NSM201x-P系列赋能汽车三电和光伏逆变器纳芯微推出全新车规级集成电流路径霍尔传感器NSM201x-P系列。该系列产品是对纳芯微已量产的NSM201x系列的完
意法半导体推出STSPIN32G0新列电机驱动器，满足工业自动化和家电市意法半导体STSPIN32系列集成化电机驱动器新增八款产品，满足电动工具、家用电器、工业自动化等应用的低成本、
Melexis推出性能先进的温度传感器，以红外技术创新实现电磁炉智能全球微电子工程公司Melexis宣布，推出专为电磁炉设计的非接触式红外温度传感器芯片MLX90617···
康佳特SMARC模块更新: 全新英特尔酷睿3处理器低功耗 SMARC 模块AI 加速和图形处理性能再次提升···
康佳特针对要求苛刻的实时应用推出新型高性能COM-HPC模块基于英特尔酷睿 Bartlett Lake S处理器的模块性能全面提升···
为汽车安全保驾护航，纳芯微推出基于AMR技术的ABS轮速传感器纳芯微宣布推出全新基于AMR（各向异性磁阻技术）的轮速传感器NSM41xx系列。该系列产品通过集成先进的磁性传感敏
Microchip推出全新Switchtec™ PCIe® 4.0 16通道交换机系列 PCI100x系列器件可为任何需要加速或专用计算的应用提供高性能和成本效益···
RK3576有多强？实测三屏八摄像头轻松搞定-米尔米尔基于他们推出的MYD-LR3576开发板开发了一个3屏异显，8路摄像头输入的DEMO，实测下来，RK3576轻松搞定了该任
SynQor®推荐先进的军用级三相输入UPS（UPS-1500-S-1U-T） SynQor的三相输入UPS电源能使单相负载在电源端呈现出符合MIL-STD-1399-300B标准的清洁、表现良好且几乎零反
村田开发超小尺寸、超低功耗的Type 2GQ GNSS模块，以匠心品质助在几年前，定位系统充斥于生活方方面面的情节还仅见于各式的科幻影片，而今具备这一功能的产品已经以各种形态步
瑞萨推出性能卓越的新型MOSFET 瑞萨全新晶圆技术可以帮助MOSFET实现导通电阻降低30%、栅漏电荷减少40%、封装尺寸缩小50%的目标···
加特兰集成 Cadence Tensilica ConnX 220 DSP 全面升级汽 ConnX 220 DSP 集成至基于下一代 Andes SoC 的加特兰雷达解决方案后，将带来显著优势，包括提高灵活性、

热门评论
最新评论

换一换

杂志声明

你的AI芯片有自己的DNN吗？