带AI的华为麒麟970与竞争对手产品性能横向比较-EDN 电子技术设计

 Cambricon这个对中国深度学习计算体系架构具有举足轻重的logo并没有出现在麒麟970的slides里。这是为什么？发展AI扶植高科技初创公司是国家全力支持的事情，几乎已经上升到了国策的级别，难道是事情正在起变化？还是说这就是IC巨头与初创公司之间某种私下的默契（苹果就从来不明说自己的A系列处理器的GPU用的是imagination的IP——Power VR）？

丁酉年的秋天，惊喜和意外总是来得那么的出人意料。告别四十度的朋友圈迎来了4000千米每时的高速飞行列车，这个可以发射导弹的速度犹如一剂强心针再次照亮了中国航工与铁路（时速4000公里，这的确不是科幻，这是科盲）。nW0ednc

在这强心针的效果下，票圈的每一次震动都撩拨着一个个新的中国梦。9月2日凌晨，在Iphone十周年旗舰版iphone 8问世的前10天，又一个中国梦问世了。nW0ednc

001ednc20170905 nW0ednc

大菊花厂的麒麟970正式发布。作为世界上首个融合CPU、GPU、NPU、DSP、ISP以及整个移动基带、多媒体的片上系统，无疑是集万千宠爱于一身的国之大器。特别其中的神经网络处理器（Neural-network Processing Unit，又多了一个xPU诶）nW0ednc

笔者和所有人一样，在这发布会前与众人一同沉浸在扬我国威的喜悦中。作为一个长期充实相关课题的研究者，更是不能自已地幻想能沐菊厂春风，引导我科研的方向。nW0ednc

然而，狂欢之后我需要一根事后烟静静，因为这道春风仔细想想并不那么踏实。
第一个毫无预警的空炮来自下图：nW0ednc

002ednc20170905 nW0ednc

每分钟2005张图的图像识别，CPU+GPU+NPU超过五倍的CPU+GPU，25倍的CPU。NPU真牛x。nW0ednc

奇怪的地方在于，它找了一个基于每分钟的性能参数，而放弃了业界常用的每秒钟的性能参数。那CPU+GPU+NPU每秒钟能做几次图像识别呢？nW0ednc

2005除以60，约33.4次。nW0ednc

这年头，作Image Recognition吞吐率到33.4帧每秒的处理器能中什么样的会议？2年前的用65nm的Eyeriss就已经已经超过了这个数，遑论STM发表在ISSCC 2017上58.5帧的设计，NV今年发布的Tesla P4 91帧每秒的速度（这也是移动端的设计）。nW0ednc

毫不夸张的讲，33.4fps的速率除了大厂自己发布会，应该那个会都不会录吧。哦对了，上述假设是基于经典AlexNet的运行，如果用的是Google家的Mobile Net，旷视的Shuffle Net，那就不用谈了。nW0ednc

第二次暴击来自它的FLOPS（每秒钟浮点运算数）16位浮点（半精度）每秒钟1.9T（10的12次方），相应的功耗为：nW0ednc

003ednc20170905 nW0ednc

平均0.4W，算一下能效，7.5TFLOPS/W，简直逆天了。比较下，隔壁NV的Tesla P100，虽然工艺差了一代，可是能效差了有1000倍呢 (21TFLOPS / 300 W = 70GTOPS/W)nW0ednc

004ednc20170905 nW0ednc

当然，这也超过了笔者的常识。对于整数运算INT16，要在能效上达到7TOPS/W已数不易，勉强可以用10nm实现的话，FP16要上TFLOPS/W绝对是创纪录的电路设计造诣，不得不膜。nW0ednc

1.92TFLOPS究竟能干多少事呢？以最经典的alexnet为例，每张图的运算需要720MFLOPS（如果乘加算两次的话就是1.4GFLOPS，再加上那些非线性·、池化、归一化，存储器访问，打个整数是2GFLOPS）。 1.92TFLOPS意味着每秒可以做960张图的图像识别，而上面的实测数据是每秒33.4张。（编者按：有读者提出，1.92TFLOPS可能是未稀疏后的等效的数字，这里的2GFLOPS也是未稀疏的等效数字。）nW0ednc

005ednc20170905 nW0ednc

1.92TFLOPS这个超高的性能指标和每秒33帧这个相对较低的实测数字之间的鸿沟很大。难道是，1.92TFLOPS里面只有10%是用于做图像处理，剩下90%做了语音，语义？或者说1.92TFLOPS这个数字是跑传统CV算法的数字，而不是深度学习（之前Movidius Myriad 2 跑传统CV算法的峰值性能可以到2 TOPS，而跑深度学习时候的性能为100 GOPS）？这恐怕就要等华为的进一步消息澄清大家的疑惑了。nW0ednc

想到这里，猛吸一口，红色的烟草已经爬到了手指，这个时候，只会留下最后一个问题——nW0ednc

爱过？！nW0ednc

这个问题是留给中科院计算所和寒武纪科技的。从年初开始，就盛传了华为采用了寒武纪的IP，可是双方的含情脉脉、犹抱琵琶半遮面到最后时分都不愿意确认。nW0ednc

直到昨晚的发布会，Cambricon这个对中国深度学习计算体系架构具有举足轻重的logo并没有出现在麒麟970的slides里。这是为什么？发展AI扶植高科技初创公司是国家全力支持的事情，几乎已经上升到了国策的级别，难道是事情正在起变化？还是说这就是IC巨头与初创公司之间某种私下的默契（苹果就从来不明说自己的A系列处理器的GPU用的是imagination的IP——Power VR）？nW0ednc

不得而知。nW0ednc

顺便提一句，970仍然采用了高性能的UFS2.1的存储卡标准，就是年初那个沸沸扬扬的缺货内存门。但愿Mate 10 不会再犯同样的错吧。nW0ednc

华为是一个芯片技术向来靠谱的公司，虽然这次的宣传有些让我们困惑，但我们始终希望麒麟970中集成的人工智能NPU能真正站在世界顶尖的位置，不让千千万万支持中国科技的人失望。毕竟，科技发展只有踏踏实实一步一个脚印才能扎扎实实地走在世界前列，而华为则是中国公司中离世界前列的目标最接近的。nW0ednc

本文作者是华为手机的忠实用户，自2010年起连续6支手机只有华为（P1、D1的年代就已经在一起），下一支也只会选P11/Mate10，不黑不路，忠实拥趸，写下此文只是不想国之大器倒在ppt写手挖的坑里。nW0ednc

（本文转载自矽说）nW0ednc

20160630000123 nW0ednc

阅读全文，请先

本文为EDN电子技术设计原创文章，禁止转载。请尊重知识产权，违者本司保留追究责任的权利。

处理器/DSP 产业前沿人工智能矽说

上一篇： 超越摩尔定律，Intel与Xilinx分享最新芯片堆栈技术 下一篇： 尺寸缩到百万分之一，芯片级量子存储器的研制成功

微信扫一扫
一键转发
最前沿的电子设计资讯
请关注“电子技术设计微信公众号”

您可能感兴趣的文章

杂志声明

带AI的华为麒麟970与竞争对手产品性能横向比较