从全面升级到Armv9架构,到公布Neoverse V1和N2平台技术细节,再到推出三款基于Armv9架构的全新CPU内核,短短两个月时间里,Arm全面计算(Arm Total Compute)战略正在以令人难以置信的速度加速推进,密集,但有条不紊。
其实在2019年,Arm就提出要在共同架构下推动全面计算,旨在解决单个IP与碎片化解决方案优化问题时面临的重大挑战,并随后发布了Total Compute解决方案白皮书。这意味着,在解决系统创新设计的挑战时,Arm需要将关注焦点逐渐从单一的产品演进,转化为以应用场景与体验为导向的系统解决方案,要对硬件IP、物理IP、软件、工具、以及彼此间的协作进行全面优化。
这是在思考方式上做出的重大转变。
Arm全新的IP设计思路可以归纳为两点:一是以应用场景、消费者体验与生态系统的需求为核心;二是深度聚焦在性能、安全性与开发人员介入权的优化,从而为未来的计算平台提供安全的基础,提升性能与效率,给予开发人员通过整个Arm生态系统获取更多性能的机会。
Arm高级副总裁兼终端设备事业部总经理Paul Williamson表示,在全面计算的概念下,IP之间的PPA(性能、功率、面积)原则也许不再是最重要的,反而是系统级的性能更为重要。此外,要确保开发者拥有最佳的开发体验、并且对每一台设备的性能与安全功能都有更简易的取用途径。
来自Arm的最新统计数据显示,仅在2020年Q4季度,Arm芯片合作伙伴就出货了73亿颗Arm架构芯片(年增22%),相当于每秒出货超过900颗芯片、每日出货7000万颗芯片,创下出货量历史新高。而2020年的总出货量更是高达250亿颗(年增13%)累计总数已超过1,900 亿。同时,Arm Mali GPU出货量累计超过80亿颗,其中2020年出货超过10亿,持续位居全球GPU出货量榜首。
授权业务方面,2020财年,Arm与104家客户签署了162个授权协议,其中有超过一半的授权对象为首次与Arm合作的企业。Arm Flexible Access 目前已有 90 家合作伙伴,通过该计划,这些合作伙伴可以更容易地获取各项全球领先的 Arm IP、工具与支持。
按照Paul Williamson的说法,Armv9带来了落实全面计算设计战略的三大关键原则:首先是安全性,主要是引入内存标签扩展(MTE)、指针验证(pointer authentication, PA)等新的安全技术;其次是开发者可及性,例如在机器学习方面,通过支持BFloat16格式更好地去支撑Int8计算和BFloat16 的Matmul;第三是计算性能,通过提升可伸缩矢量扩展能力,能够更好地帮助开发者对高阶的应用场景进行开发,比如图像信号处理。
“Arm正致力于将Armv9技术引入包括笔记本电脑、台式机、云、5G网络、数据中心、更多终端与车载架构计算在内的各个领域,借助移动生态系统的规模优势,以系统级设计最大程度地提高性能。”Paul Williamson说,目前来看,全面计算在高性能应用场景(游戏生态、拥有丰富人工智能功能的应用)、涉及安全功能的应用场景(安全交易、银行类应用、设备端个人数据保护等)中将会拥有更高的接受度。
例如在游戏中,“我们测量了整个游戏内容中全面计算系统优化的结果,每个系统组件都有助于性能的提升。Cortex-A710 CPU在运行驱动工作负载时,带来了33%的性能提升;Mali-G710带来了20%的性能提升,我们的系统级IP提供了15%的效率提升。”
再比如在AI中,“不同的Arm IP上运行多样的AI工作服在带来的巨大性能提升。这些性能提升各异,从Mali-G710平均35%的提升,到Cortex-M55的高达700%的提升,真是针对能耗有限制的工作负载,例如关键字侦测。”
在多种不同应用场景之间进行设计权衡是比较困难的。因此,Arm全面计算框架的推出为生态系统合作伙伴提供了跨多种应用的可扩展性,也为具体的场景用例提供了特定的加速或增强功能,既能针对应用场景构建优化的解决方案,同时也能平衡解决方案的性能和成本,这是下游设计真正需要的,在真实的用例中也非常有价值。
关于Armv9架构和Neoverse V1/N2平台技术的更多内容,本刊此前曾进行过持续追踪报道,有兴趣的读者可点击《Armv9细节公布,Arm迎来十年最大架构革新》、《性能如此强悍的服务器CPU对Arm意味着什么?》等文章进行了解,本文将更多介绍最新推出的IP套件,包括:首批Armv9 Cortex CPU、Mali GPU和全新的CoreLink系统 IP,共计10款产品。
三款Armv9架构的CPU核包括:旗舰级Cortex-X2、大核CPU Cortex-A710、高效率小核Cortex-A510。
其中,Cortex-X2主要面向智能手机市场,相比于Cortex-X1,性能提升16%,可将旗舰型安卓智能手机的性能在当前基础上再提升30%。除了峰值性能外,Cortex-X2还可在旗舰智能手机和笔记本电脑之间扩展,使合作伙伴可以根据市场需求来设计基于不同场景的计算能力。
Cortex-A710是首款基于Armv9架构的大核CPU,与Cortex-A78相比,能效提升30%,性能提升10%。通过性能和效率的提升,当智能手机运行高要求的App时,用户将获得比以往更长的使用时间以及更优化的体验。
Cortex-A510是Arm过去四年来推出的首款高效率小核,其性能提升35%,机器学习性能提升超过3倍。它所带来的性能水平已经接近几年前推出的上一代大核Cortex-A73,性能差距不到10%,但能效优化可达35%,适用于智能手机、家用设备和可穿戴设备。
Armv9-A CPU集群的支柱是新款的动态共享单元(DynamIQ Shared Unit)DSU-110,该组件可为不同的细分市场提供各种解决方案。DSU-110具备可扩展性,可支持多达八个Cortex-X2内核配置,也难怪Williamson在介绍中说,“一台基于Cortex-X2的笔记本电脑比起2020年市场主流的笔记本,其单线程性能可领先40%。“
如下图所示,在2021年消费设备中常见的“1超大核+3大核+4小核,4MB L3(DSU)” Tri-Cluster CPU架构中,如果将X1替换为X2,A78替换为A710,A55替换为A510,DSU替换为DSU-110,4MB L3(DSU)替换为8MB L3(DSU-110),预计2022年终端设备的峰值性能将会提升30%,持续性能将会提升30%,小核性能将会提升35%。
视觉体验仍然是消费者与设备交互、并享用设备的关键,Arm新推出面向广泛应用的多款GPU,搭配Armv9 CPU,继续提升用户体验。
最新的Arm Mali-G710是针对旗舰智能手机和Chromebook笔记本市场的高性能 GPU,在计算密集型体验方面的性能提升20%(如AAA高保真游戏)。对于与机器学习有关的任务(如全新相机和视频模式的图像增强),Mali-G710也带来35%的机器学习性能提升。
作为次旗舰GPU,Mali-G610继承了Mali-G710 的功能,但价格更低,可将高阶应用场景带给更多的开发者和消费者。
Mali-G510实现了性能和效率的较好平衡,在中端智能手机、旗舰智能电视和机顶盒上,实现了100%的性能提升以及22%的节能优化,从而延长了电池续航时间,提升了100%的机器学习性能。
Mali-G310是Arm目前最高效的GPU,以最小的面积成本提供了最高的性能。通过Mali-G310,Valhall架构和高质量图形技术将被引入到更低成本的设备中,例如入门级智能手机、AR设备和可穿戴设备。
互连技术对于提高系统性能至关重要。最新的CoreLink CI-700一致性互连技术和CoreLink NI-700片上网络互连技术,可与Arm CPU、GPU和NPU IP无缝搭配,跨 SoC解决方案增强系统性能。CoreLink CI-700和CoreLink NI-700对新的Armv9-A功能提供硬件级支持,如内存标签扩展(Memory Tagging Extension),支持更高的安全性、改进的带宽和延迟。
可以看出,全新的全面计算解决方案是系统范围内整体优化的思路,横跨硬件 IP、物理 IP、软件、工具和标准,能够为合作伙伴提供更为广泛的选择,以满足细分市场的应用场景和成本区间需求。同时,这也将解锁整个生态系统的新体验,例如,专为移动设备设计、支持 AI 功能的交互式应用场景,可以使用户身临其境观看电视8K内容等体验。
随着IP战略的升级,Arm宣布,将在2023 年面向移动应用仅提供64位的大核和小核。为此,Arm全球合作伙伴正在努力确保所有App都将在今年年底前支持64位。
据Paul Williamson介绍,Cortex-X2是完全面向智能手机市场的产品,预计在未来几代手机产品中就能看到Cortex-X2的身影。对智能手机和其他终端计算设备而言,64位将提供终极的性能表现。Arm目前正与中国应用商店生态合作伙伴进行密切协作,确保主要App都能在今年年底前支持 64 位,从而为中国消费者提供Cortex-X2所带来的性能提升体验。
Arm方面透露,向64位过渡需要分阶段实现,目前,Cortex-X2、Cortex-A510已经是64位CPU,A710仍然支持32位。预计到2023年,Arm在移动应用的大核跟小核都将仅支持64位。
Paul Williamson总结称,Arm合作伙伴希望能够将新品更快速地推向市场,而全面计算解决方案包含了SoC设计流程中所需要的一切组件:硬件 IP、软件、物理IP、工具和标准,将使合作伙伴在应对所有终端市场上SoC复杂性时受益,让他们能够满怀信心地通过最新的技术,将高性能的产品快速推向市场。