清华计图(Jittor)团队完成寒武纪芯片MLU270上的移植，未来将支持更多国产芯片-EDN 电子技术设计

 清华大学计算机系的图形学实验室主要开展计算机图形学、计算机视觉、智能信息处理、智能机器人、系统软件等方面的基础研究，近日，计图(Jittor)团队成功完成寒武纪芯片MLU270上的移植，支持推理和训练，并复现了ResNet、Alexnet、VGG等骨干网络，其中动态图推理速度相较PyTorch平均提升了276.69倍，推理精度也得到了显著的提升。

Jittor的开发团队来自清华大学计算机系的图形学实验室，目前有教授2名、副教授3名、助理研究员1名、博士后4名和研究生50多名。vLBednc

清华大学计算机系的图形学实验室成立于1998年3月，2007年发展成为清华大学可视媒体研究中心，2010年获批成为北京市工程技术研究中心，同年和腾讯公司合作成立清华-腾讯互联网创新技术联合实验室，并于2018年，成立北京信息科学与技术国家研究中心下的可视媒体智能计算团队。vLBednc

实验室主要开展计算机图形学、计算机视觉、智能信息处理、智能机器人、系统软件等方面的基础研究，近日，计图(Jittor)团队成功完成寒武纪芯片MLU270上的移植，支持推理和训练，并复现了ResNet、Alexnet、VGG等骨干网络，其中动态图推理速度相较PyTorch平均提升了276.69倍，推理精度也得到了显著的提升。vLBednc

vLBednc

计图支持寒武纪！动态图性能较PyTorch提升270倍

Jittor是清华大学自主研发的框架，相比PyTorch具有更好的可移植性，在保证易用的同时，能更充分发挥寒武纪芯片的性能，此次合作有望革新现有软硬件体系架构，进一步突破AI算力瓶颈，加速AI研究的创新创造，为国内的人工智能生态打下坚实基础。vLBednc

Part1：多个骨干网络速度提升数百倍

Jittor团队在寒武纪芯片上与PyTorch对比了多种backbone网络模型的速度，包括alexnet、vgg系列、resnet系列在内的16个网络。vLBednc

可视化结果如图1所示，动态图性能(逐层)，Jittor的速度可以达到PyTorch的153~464倍，平均速度达到了PyTorch的276.69倍。其中最快的是alexnet，性能提升可达464.43倍。vLBednc

图1 不同backbone网络Jittor动态图加速比vLBednc

每个模型的具体数值如表1所示，其中Model一列展示了不同backbone模型，测试使用长宽均为224的rgb图像作为输入。Jittor和PyTorch两列分别展示了两个框架单次前向所需的时间，单位是毫秒。Speed Up展示了Jittor动态图的加速比。vLBednc

表1 Jittor和PyTorch在不同backbone的动态图速度指标vLBednc

vLBednc

同时发现Jittor的精度损失也会比PyTorch大幅减少。以Resent18网络为例，对比了Jittor和PyTorch的MSE，结果如表2所示。对比的baseline是cpu，测试表明，Jittor的精度损失比PyTorch少42.53%。表2 resnet18的mse误差对比vLBednc

vLBednc

Part2 ：Jittor如何助力寒武纪性能提升？

主流的TensorFlow和PyTorch框架有几百甚至上千个算子，这就导致了在移植新的硬件时需要付出巨大的工作量一一复现这些算子。vLBednc

而Jittor采用元算子的的概念，将神经网络所需的基本算子定义为三类共18个元算子，这些元算子能相互融合成大部分常用的算子[1]。因此对少量元算子进行优化，就能使得不同的常用算子性能都得到显著提升。 vLBednc

除此之外，元算子还是反向传播闭包，这意味着所有元算子的反向传播算子仍然是元算子，也就是当完成移植元算子的移植后，Jittor就天然支持训练。vLBednc

因此，得益于元算子设计，在完成三类元算子的移植后，Jittor就支持了大部分常用算子的推理和简单训练(见图2)。vLBednc

vLBednc

图2 在不同硬件移植元算子以支持推理和训练Jittor的多个元算子之间可以相互融合成更加复杂的算子，这些复杂算子构成了神经网络计算的多个模块，如卷积层，归一化层等(见图3)。这种融合我们称之为元算子融合，可以提升性能，节省资源。vLBednc

传统的算子融合方式需要手工编写融合规则，并逐一开发融合后的算子。而Jittor通过实时分析计算图结构，自动将可以融合的元算子进行融合，从而大幅减少访存带来的开销，并减少开发工作量。vLBednc

图3 使用元算子实现卷积层的方法示意图Jittor内置了元算子编译器，可以通过动态编译的方式将用户的Python代码编译成高性能的寒武纪BANG代码。vLBednc

Jittor的动态编译过程相比较传统的静态编译，可以在运行时获得更多的额外信息，如计算图上下文，形状信息等等，这些信息都可以进一步用于提升算子性能。vLBednc

此外，Jittor还内置了优化编译遍(complier pass)，这些编译遍会根据硬件设备，自动对BANG代码进一步优化，生成对计算设备友好的底层算子。vLBednc

下方这行代码为BatchNorm算子的代码节选，该代码由若干个元算子组成，仅仅一行Python就可以表达BatchNorm算子的核心思想。vLBednc

vLBednc

上述的Python代码将会被Jittor的元算子编译器自动优化，生成如下代码(见图4)，如下代码对计算设备更加友好，使用到了BANG语言的内置函数如__bang_add进行加速。vLBednc

vLBednc

图4 Jittor动态编译生成的BANG语言代码vLBednc

BANG语言由寒武纪编译器团队提出，该语言包含了全套的工具链如cncc、cngdb，大大简化了Jittor元算子的迁移成本，元算子编译器可自动生成的BANG算子。vLBednc

BANG语言设计成熟，一方面，BANG语言提供了类似于CUDA语言的线程调度模式，上手简单，易于调试；另一方面又提供了内置函数，获得更好的芯片性能，完全释放芯片算力。vLBednc

这套工具链可以很好地与Jittor的动态编译器整合在一起，实现动态的算子优化与注册，Jittor的元算子还可以进一步降低在寒武纪上开发自定义算子的难度。vLBednc

Jittor框架带来的另一个重大提升是，保证用户在使用动态图易用的前提下，仍然可以获得显著的性能提升（见图5）。以往用户在使用PyTorch加速时，往往需要通过tracing等机制，将动态图静态化，才能够获得性能提升，然而tracing机制会降低模型的易用性。而Jittor框架在动态模式下的性能可以媲美甚至超过静态图，同时不依赖tracing机制，保证了框架的易用性。vLBednc

图5 统一计算图兼顾效率与灵活性vLBednc

Part3: 前景展望：国产框架x国产芯片

人工智能技术将作为第四次革命，带领人类走向智能时代，人工智能的快速发展既离不开算力的突破和算法的创新，更依赖于深度学习框架和AI芯片。vLBednc

Jittor作为清华大学发布的自主可控的深度学习框架，秉承着开源开放，厚德载物的精神，支持国产芯片的发展。本次Jittor实现对寒武纪的成功支持，不仅实现了基础骨干网络的推理与训练，并且相比较国际主流框架PyTorch，获得了显著的性能提升，同时具有动态图的易用性，让学术界和工业界的用户都能更容易上手。vLBednc

未来Jittor框架将针对更多不同类型的应用、不同的场景、训练以及推理进行更加深度的优化，提供更多易于上手，开箱即用的开源工具包，贡献开源社区，支持更多国产芯片，推动国产AI生态的快速发展。vLBednc

参考文献vLBednc

Shi-Min Hu, Dun Liang, Guo-Ye Yang, Guo-Wei Yang, Wen-Yang Zhou, Jittor: a novel deep learning framework with meta-operators and unified graph execution, Science China Information Science，2020, Vol. 63, No. 12, article no. 222103, pages: 1-21. vLBednc

vLBednc

责编：胡安vLBednc

阅读全文，请先

人工智能处理器/DSP

上一篇： 采用SiC FET尽可能提升图腾柱PFC级的能效 下一篇： 拆解比亚迪智能车钥匙，看看用什么方案做的

微信扫一扫
一键转发
最前沿的电子设计资讯
请关注“电子技术设计微信公众号”

创新的FPGA技术实现低功耗、模块化、小尺寸USB解决方本文总结了业界用于高性能 USB 3 设备的一些典型解决方案，并介绍了一种新的架构，这种架构既能节省功耗和面积，又能提高灵活性和易用性···
盘点CES 2025上基于Arm架构的AI创新和技术亮点近期在美国拉斯维加斯举行的 CES 2025 再次彰显了其作为展示最新科技创新的重要平台。今年展会上所呈现的众多前沿产品和新的发布将推动各个行业的变革与发展···
芯耀辉：从传统IP到IP2.0，AI时代国产IP机遇与挑战齐飞 2024年，集成电路行业在变革与机遇中持续发展。面对全球经济的新常态、技术创新的加速以及市场需求的不断变化，集成电路企业如何在新的一年里保持竞争力并实现可持续发展？
Arm 技术预测：2025 年及未来的技术趋势 Arm 对 2025 年及未来的技术发展做出了预测，范围涵盖技术的各个方面，从 AI 的未来发展到芯片设计，再到不同技术市场的主要趋势···
该如何设计PCB以保证恶劣环境下的信号完整性在现代电子设计中，保持PCB信号完整性是一项越来越具有挑战性的任务···
CES 2025：洞察汽车创新未来从CES 2025的汽车方案展示可以看到，汽车OEM正从黑盒解决方案转变为区域架构为主的处理主干，传感器功能也逐渐优化，结合多模态输入数据与情境感知的 ML...
CES 2025：Edge AI硬件加速再掀热潮边缘计算/边缘人工智能(Edge AI)一直是热门话题，在CES 2025也不例外。然而，实现边缘计算/智能的底层硬件是什么？又是如何实现与应用的呢？
英伟达50系列显卡发布，RTX 5090D近乎“零提升”？ 1月6日的CES展会上，英伟达正式发布了备受期待的RTX 50系列显卡···
全自动手术机器人出现，缝合速度比医生还快30%？美国约翰霍普金斯大学和斯坦福大学的联合团队创造了一项前所未有的突破，他们首次对机器人进行了训练，使其能够像人类医生一样熟练地执行相同的手术程序···
2024是AI MCU元年？ 2024年开启了MCU领域的AI时代，2025年可望见证更多轻量化AI模型在MCU上的进一步突破...
探索工业应用中边缘连接的未来我们的世界正变得更加智能且紧密相连，楼宇和工厂正以前所未有的方式实现自动化。为了确保这些新系统有效运行，可靠的信息通信至关重要···
其实CPU才是最适合AI推理的？因为这五大理由本文将具体介绍CPU成为AI推理工作负载最佳目标的五大理由···

机器人所需要的传感器有哪些？随着机器人技术的迭代升级，传感器的重要性将持续提升，其功能性、精度和适配性也将得到显著改进，作为机器人不可
2024年墨西哥市场分析，中国品牌崛起 2024年，墨西哥汽车市场以近10%的增长率展现了强劲的复苏势头，中国品牌的崛起为市场注入了新活力，当然现在的政
2025，大众汽车集团在中国如何转型？ 2024 年，大众汽车集团（中国）在复杂多变的市场环境中成功达成销量目标，向客户交付超过 290 万辆汽车，新能源汽车领
国产射频芯片公司汇总对于射频芯片这项卡脖子技术，国内很多公司在这方面努力，而且也做出了不错的成绩。一些射频芯片公司无论从研发
拆解报告：松下电器1200W电吹风松下EH-NW90电吹风内置10万转高速无刷电机，并具备三档风速和四档风温可选。电吹风内置纳诺怡技术，为秀发提供
拆解报告：白牌电动工具电池多功能放电转换器这款白牌多功能放电转换器适配得伟电动工具电池使用，将电动工具电池和放电转换器组装起来，即可组成移动电源和
拆解报告：MOMA猛玛LARK M2无线麦克风 MOMA猛玛LARK M2无线麦克风在外观方面，采用了极富创新的设计，提供了轻盈舒适的佩戴使用体验。发射器采用了夹
阿根廷2024年：销量下滑，北汽增长240.1%。 2024年阿根廷汽车市场在整体销量下滑的背景下，依然展现出多元化的发展趋势···
2025年第3周：全球最快四足机器人发布 2025年将成为机器人产业的关键时间点，业内预期27年人形机器人出货量可达50~100万台。从技术进步到供应链成熟
欧洲2024年汽车市场：微弱复苏和电动化加速并存 2024年，欧盟新车注册量小幅增长0.8%，达到约1060万辆，欧盟+英国+北欧国家的销量为1296.4万台，同比增长0.9%，整个欧
射频微波领域有哪些高质量期刊？今天我们结合网络上的资料一起整理一份射频微波领域的期刊列表，以便同学们投稿时可以选择···
拆解报告：Portal智能屏幕24W电源适配器 Portal智能屏幕电源适配器采用黑色直板机身，外观整洁，配有2米长黑色输出线。适配器采用美规固定插脚，支持100-2

性能飞跃！升级电流传感器NSM201x-P系列赋能汽车三电和光伏逆变器纳芯微推出全新车规级集成电流路径霍尔传感器NSM201x-P系列。该系列产品是对纳芯微已量产的NSM201x系列的完
意法半导体推出STSPIN32G0新列电机驱动器，满足工业自动化和家电市意法半导体STSPIN32系列集成化电机驱动器新增八款产品，满足电动工具、家用电器、工业自动化等应用的低成本、
Melexis推出性能先进的温度传感器，以红外技术创新实现电磁炉智能全球微电子工程公司Melexis宣布，推出专为电磁炉设计的非接触式红外温度传感器芯片MLX90617···
康佳特SMARC模块更新: 全新英特尔酷睿3处理器低功耗 SMARC 模块AI 加速和图形处理性能再次提升···
康佳特针对要求苛刻的实时应用推出新型高性能COM-HPC模块基于英特尔酷睿 Bartlett Lake S处理器的模块性能全面提升···
为汽车安全保驾护航，纳芯微推出基于AMR技术的ABS轮速传感器纳芯微宣布推出全新基于AMR（各向异性磁阻技术）的轮速传感器NSM41xx系列。该系列产品通过集成先进的磁性传感敏
Microchip推出全新Switchtec™ PCIe® 4.0 16通道交换机系列 PCI100x系列器件可为任何需要加速或专用计算的应用提供高性能和成本效益···
RK3576有多强？实测三屏八摄像头轻松搞定-米尔米尔基于他们推出的MYD-LR3576开发板开发了一个3屏异显，8路摄像头输入的DEMO，实测下来，RK3576轻松搞定了该任
SynQor®推荐先进的军用级三相输入UPS（UPS-1500-S-1U-T） SynQor的三相输入UPS电源能使单相负载在电源端呈现出符合MIL-STD-1399-300B标准的清洁、表现良好且几乎零反
村田开发超小尺寸、超低功耗的Type 2GQ GNSS模块，以匠心品质助在几年前，定位系统充斥于生活方方面面的情节还仅见于各式的科幻影片，而今具备这一功能的产品已经以各种形态步
瑞萨推出性能卓越的新型MOSFET 瑞萨全新晶圆技术可以帮助MOSFET实现导通电阻降低30%、栅漏电荷减少40%、封装尺寸缩小50%的目标···
加特兰集成 Cadence Tensilica ConnX 220 DSP 全面升级汽 ConnX 220 DSP 集成至基于下一代 Andes SoC 的加特兰雷达解决方案后，将带来显著优势，包括提高灵活性、

热门评论
最新评论

换一换

杂志声明

清华计图(Jittor)团队完成寒武纪芯片MLU270上的移植，未来将支持更多国产芯片

计图支持寒武纪！动态图性能较PyTorch提升270倍

Part1：多个骨干网络速度提升数百倍

Part2 ：Jittor如何助力寒武纪性能提升？

Part3: 前景展望：国产框架x国产芯片