广告

首次超越苹果?全面剖析华为Mate 40的绝版“麒麟9000”处理器

2020-11-03 10:32:24 黄烨锋 阅读:
由于受到美国打压,华为的麒麟9000处理器成为“绝唱”,也是Mate 40系列手机的绝版处理器,国外Mate40起步价高达899欧元,国内起步价高达4999,Mate 40 Pro国内高达6499+。从定价看,华为Mate 40/Pro已经与苹果iPhone 12 Pro相差无几,从功能上看也相差不大,有些功能譬如屏下指纹、四摄、反向无线充电等甚至是苹果没有的。那么从麒麟9000这个“绝版”处理器上来看,性能如何呢?本文就从CPU、GPU、NPU、5G等各个方面全面剖析华为Mate 40的绝版“麒麟9000”处理器。
v8Sednc

GPU:秒杀高通Adreno?

麒麟9000的GPU部分是非常值得一说的。去年麒麟990并未按照我们的预期,采用Arm Mali G77,而是继续采用麒麟980时期的G76。此前我曾撰文提到过,高通如今正逐渐在GPU部分丢失往常的优势:如果Mali G77能够按照Arm预期的那样,那么Mali GPU很可能实现对Adreno GPU性能和效率的同时追平。v8Sednc

悲剧的是,华为并未采用G77。而实施G77的三星Exynos 990(Mali G77MP11)与联发科天玑1000(MP9),在规模上都不够大——前者多方面的问题还相当一言难尽。这就让我们无从了解,G77到底是个什么水平。加上骁龙865的Adreno 640小小发挥了一下,在不少测试中的效率表现都和苹果相差不大了(性能仍有差距),Arm Mali阵营这边就急需一款产品来证明GPU的实际水准。v8Sednc

麒麟9000直接跳过G77,用上了Mali G78。华为给出的数据是,相比骁龙865+,麒麟9000的GPU性能领先52%,能效领先50%。从华为的PPT来看,对比的是GFXbench 5.0 Aztec Ruins Vulkan项目(不过极有可能,性能提升和效率提升的测试条件是不同的)。单纯从这个跑分来看,可能已经达到了苹果A13或者A14的水平——余承东在手机发布会现场列出了iPhone 12 Pro与Mate 40 Pro+的GPU跑分性能,两者似乎的确已经是相近水平:虽然目前还不清楚这是峰值性能还是持续性能,以及并未有能效比较的数据。v8Sednc

v8Sednc

无论如何,这两个分数都是相当巨大的领先,这使得今年Mate 40系列手机的游戏表现非常令人期待。v8Sednc

v8Sednc

华为自己的实际游戏性能测试是,“某国内TOP MOBA类游戏”满帧状态的能效,平均比“友商”(也就是骁龙865 Plus,三星Galaxy Note 20 Ultra)优秀20%;包括《王者荣耀》《和平精英》《明日之后》等在内的多款主流游戏,系统能效比都优于骁龙865+——这似乎还是华为首次在反复提GPU的“能效”,而不单纯是性能:表明这次的底气比以往都更充足。v8Sednc

事实上,Mali G78相比G77并没有发生太大的变化。但G77是首次换用了Valhall架构——算是一次大变动,G78则是个改款。仍然建议有兴趣的同学阅读此前有关Mali G77的文章《Arm新版Mali GPU简析:这次终于赶超高通和苹果?》。G77相比G76,性能密度提升30%,能效提升30%;主要是G77的shader核心换用新的执行引擎,16-wide warp执行模型,合并为一个执行引擎,提升ALU利用率。v8Sednc

因为此前G76已经有了一次Arm Mali阵营的大跃进,所以G77就纸面数字来看还是比较优秀的。而G78,Arm的数字是结合微架构与制造工艺的双重改进,相较G77有25%的性能提升。相同工艺情况下,性能密度提升15%(相同面积下,获得15%性能提升);能效提升10%。v8Sednc

Mali G78支持的最大核心数目提升到了24个核心,不知该说Arm Mali这种增多核心的路线是种进步还是退步——麒麟9000显然拉满了这个数字,算是G78的顶配了(9000E则为22个核心),从去年开始似乎华为已经不再走过去那种高频少核的路线了。v8Sednc

v8Sednc

G78的执行核心与前代相比没什么变化,就是延续了Valhall架构的特色(16-wide,合并为一个引擎);shader核心整体上也没什么变化。其最大的变化在于从整个GPU的全局频域(frequency domain)变为两级结构,最顶级的共享GPU模块为一个频域,shader核心为一个频域——也就是GPU内部不同步的时钟域,shader核心可以跑在不同的频率下。只是不知道麒麟9000是否实施了这个方案。v8Sednc

这事实上解决了Mali GPU一个很大的问题:要在屏幕上推更多数量的多边形时,以前只能全面推高运行频率。如今市面上出现的新游戏普遍是几何处理工作偏重的,将tiler和几何引擎运行频率解耦,就能够解决吞吐不平衡的问题。另外就是,理论上能效也能得到改进——只不过要增加额外的电压域实施,也就增加了系统的成本。除此之外,G78的FMA引擎做了翻新,主要是乘法器结构变化,以及FP32和FP16路径做了隔离,据说是以面积来换取30%的节能。v8Sednc

v8Sednc

大概也是因为GPU性能和效率水平真的上来了,艾伟今年谈了不少游戏画质相关的东西。而且事实上,在《原神》这类游戏开始出现在手机之上,更多原本属于PC和主机的游戏体验、特效,都开始向移动平台迁移。v8Sednc

包括SSR屏幕空间反射、MSAA/TAA抗锯齿,以及动态模糊、体积光+实时阴影等更好的游戏画质实现上,华为宣传的是麒麟9000在更好地实现这些特效的基础上,同时做到高帧率,以及更高的效率——如上图所示,是对比某尚未发布的游戏,在开启HDR、MSAA抗锯齿等特性后,稳定60fps运行,以及实现比“友商芯片平台”(这个对比对象未知)高了一倍的效率(图中中间mW/frame数值)。这其中应该也有AI的辅助:早年Kirin 970时期起,通过机器学习来达成针对特定游戏、特定设备的最优化DVFS调度。v8Sednc

所以Mate 40的GPU实际表现,的确令人十分期待。骁龙875的GPU恐怕会面临比较大的压力。v8Sednc

NPU:现在有什么用?

麒麟9000的NPU升级到达芬奇架构2.0,“NPU算力翻倍”。当然我们不清楚达芬奇架构2.0相比1.0,到底改了些什么。比较抽象的形容是“MAC规模翻倍,卷积网络性能翻倍,核间通讯带宽翻番”。所以AI Benchmark(ETH AI Benchmark V4.0)之类的拿“全球第一”也并不奇怪。另外华为这次特别提到了Int8数据类型的性能与能效。v8Sednc

v8Sednc

艾伟说AI普及后,手机终端越来越多地需要做8位整型数据计算,而不是浮点FP16。用ResNet50网络来跑,麒麟9000的Int8性能较骁龙865+高出60%,能效则高了150%——这应该和高通的AI Engine始终不上专核,而主要靠强化DSP与异构计算有关。v8Sednc

SoC层面另外值得一提的就是前文已经提到过的system cache。由于这个末端cache容量增大,很多情况下各IP模块就不需要再去调用DRAM。由于带宽的成倍增加,以及能效的提升,NPU与其他处理器工作的实时性才有更好的保障。v8Sednc

往年的NPU介绍,大致上也就停留在这个程度了。今年华为似乎急着想要证明,NPU究竟能用来做什么。事实上,Android阵营的AI生态发展得并没有那么高速,即便华为始终在说HiAI支持的人工智能网络算子是业界最多。但华为在这个生态上的建设,真可谓不遗余力。这次艾伟主要列举了NPU的三个用处:AI视频处理、AI拍视频、AI AR。

本文为电子技术设计原创文章,未经授权禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
黄烨锋
欧阳洋葱,编辑、上海记者,专注成像、移动与半导体,热爱理论技术研究。
  • 微信扫一扫
    一键转发
  • 最前沿的电子设计资讯
    请关注“电子技术设计微信公众号”
  • MCU上的AI算法在自动驾驶中的实用案例 人工智能(AI)算法和支持硬件对于下一阶段的自动驾驶和最终的自动驾驶实现至关重要,而英飞凌和ZF(德国采埃孚集团)在EEmotion项目中的合作证明了这项雄心勃勃的技术的可行性···
  • AR/VR应用即将迎来爆发,国产高性能SoC已做好准备 从数据存储角度来看,伴随而来的大量数据需要通过“去中心化”进行存储,因此,理想当中的元宇宙背后是各种各样的连接、计算、仿真、人工智能、软件以及区块链这样的技术在做依托。迄今为止,能够连接人和虚拟世界的窗口是AR/VR,但AR/VR设备距离“元宇宙”这个目标还很远。
  • 融合AI算力,进迭时空全球首款8核RISC-V AI CPU面世 过去两年中,进迭时空已经已经完成两款智算核SpacemiT X60和X100的研发工作,并基于SpacemiT X60 智算核心推出全球首颗8核RISC-V AI CPU—SpacemiT Key Stone K1,以及可量产的MUSE系列生态产品。
  • 神经形态计算器件和阵列测试解决方案 神经形态阵列是一种利用忆阻器器件形成的小规模的、实现类似于大脑神经元连接的集成电路。为了探索其应用和优势,有必要开发新的测量技术和模块,对忆阻器器件和阵列进行精确和全面的表征和评估···
  • 放弃造车后,苹果要做家务机器人了 据EDN电子技术设计报道,苹果工程师正致力于开发一种能在家庭环境中自由移动并执行日常任务,如洗碗等家务的机器人。
  • FPGA助力高速未来 FPGA提供无与伦比的灵活性、安全性和高性能,可处理各类复杂任务,包括管理超级高铁网络中的推进、导航和通信等。
  • 如何设计与现场总线无关的智能工厂传感器 这篇博文介绍了智能工厂传感器(温度和压力)的设计理念,无论工厂流程中使用何种类型的现场总线或工业以太网,这些传感器都能与PLC进行通信。
  • 小米SU7首拆:看看主控Orin X、8295芯片到底长啥样 据博主@杨长顺维修家 抖音视频显示,他提车后第一时间拆掉了新车的主控,并在解说中将其与特斯拉做了比较。
  • 继日本台积电晶圆厂之后,先进封装工厂将是下一个目标 日本重启芯片行业的努力很可能再次获得利好:台积电(TSMC)将要建设新的先进封装工厂……
  • Cadence 扩充 Tensilica Vision 产品线,新增毫米波 单个 DSP 用于嵌入式视觉、雷达、激光雷达和 AI 处理,在性能提升的前提下,带来显著的面积优化、功耗和成本的降低;针对 4D 成像雷达工作负载,新增的雷达加速器功能可提供高度可编程的硬件解决方案,显著提升性能;专为多传感器汽车、无人机、机器人和自动驾驶汽车系统设计中的传感器融合处理而设计~
  • 采用芯原NPU IP的AI类芯片已在全球出货超过1亿颗 芯原股份2024年2月29日宣布集成了芯原神经网络处理器(NPU)IP的人工智能(AI)类芯片已在全球范围内出货超过1亿颗,主要应用于物联网、可穿戴设备、智慧电视、智慧家居、安防监控、服务器、汽车电子、智能手机、平板电脑、智慧医疗等10个市场领域。在过去七年里,芯原在嵌入式AI/NPU领域全球领先,其NPU IP已被72家客户用于上述市场领域的128款AI芯片中。
  • 工厂智能化三要素:电源管理IC、处理器和传感器 能源效率是工业4.0的一项主要指令,为的是提高生产力和降低成本,同时减少对环境的影响。智能工厂有赖于一系列元器件——包括电源管理IC(PMIC)、处理器和传感器——来处理监控、收集和分析数据的任务,以确定优化生产流程和降低能耗的最佳方法。
广告
热门推荐
广告
广告
广告
EE直播间
在线研讨会
广告
面包芯语
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了