Arm 计算平台加持，全新 Llama 3.2 LLM实现AI 推理的全面加速和扩展-EDN 电子技术设计

 在 Arm CPU 上运行 Meta 最新 Llama 3.2 版本，其云端到边缘侧的性能均得到显著提升，这为未来 AI 工作负载提供了强大支持，Meta 与 Arm 的合作加快了用例的创新速度，例如个性化的端侧推荐以及日常任务自动化等，Arm 十年来始终积极投资AI领域，并广泛开展开源合作，为 1B 至 90B 的 LLM 实现在 Arm 计算平台上无缝运行···

人工智能 (AI) 的迅猛发展意味着大语言模型 (LLM) 的新版本不断推陈出新。要充分发挥 AI 的潜力并抓住其带来的机遇，需要实现 LLM 从云端到边缘侧的广泛部署，而这也伴随着对计算和能源需求的大幅增长。整个生态系统正携手寻找应对这一挑战的解决方案，不断推出新的更加高效的开源 LLM，以便大规模实现各种 AI 推理工作负载，加快为用户带来全新、快速的 AI 体验。UNxednc

UNxednc

为此，Arm与Meta 展开紧密合作，在 Arm CPU 上启用新的Llama 3.2 LLM，集成开源创新与 Arm 计算平台的优势，显著推进了解决AI挑战的进程。得益于Arm 的持续投资及与新型LLM 的合作， Arm CPU运行 AI 的优势在生态系统中脱颖而出，使Arm成为 AI 推理开发者的首选平台。UNxednc

UNxednc

加速云到边缘侧的 AI 性能UNxednc

UNxednc

小型 LLM（如 Llama 3.2 1B 和 3B）能够支持基于文本的基础生成式 AI 工作负载，对于大规模 AI 推理的实现至关重要。通过 Arm CPU 优化内核在 Arm 技术驱动的移动设备上运行新的 Llama 3.2 3B LLM，可让提示词处理速度提高五倍，词元 (token) 生成速度提高三倍，在生成阶段实现每秒 19.92 个词元。这将直接减少了在设备上处理 AI 工作负载的延迟，大大提升了用户整体体验。此外，当边缘侧能处理的 AI 工作负载越多，往返云端传输数据所节省的电量就越多，进而节省了能源和成本。UNxednc

UNxednc

除了在边缘侧运行小型模型，Arm CPU同样支持在云端运行更大的模型（如 Llama 3.2 11B 和 90B）。11B 和 90B 的模型非常适合云端基于 CPU 的推理工作负载，可生成文本和图像，其中，在 Arm Neoverse V2 上的测试结果展现出了更大的性能提升。在基于 Arm 架构的 AWS Graviton4 上运行 11B 的图像和文本模型，可以在生成阶段实现每秒 29.3 个词元的表现，远远超出了人类大约每秒阅读五个词元的速度。UNxednc

UNxednc

AI 将通过开源创新和生态系统协作迅速扩展UNxednc

UNxednc

能公开获取新的 LLMs（如Llama 3.2）至关重要。开源创新正以迅猛速度发展，在之前的版本中，开源社区在不到 24 小时的时间内便能在 Arm 上部署并运行新的 LLM。UNxednc

UNxednc

Arm将通过 Arm Kleidi 进一步支持软件社区，让整个 AI 技术栈能够充分发挥这一优化的 CPU 性能。Kleidi 可在任何 AI 框架上解锁 Arm Cortex 和 Neoverse CPU 的 AI 功能和性能，无需应用程序开发者进行额外的集成工作。UNxednc

UNxednc

通过最近的 Kleidi 与 PyTorch 集成以及正在推进的与 ExecuTorch 集成，Arm正在为基于 Arm CPU的开发者提供从云端到边缘侧的无缝 AI 性能。得益于Kleidi 与 PyTorch 的集成，在基于 Arm 架构的 AWS Graviton 处理器上运行 Llama 3 LLM 的词元首次响应时间加快了 2.5 倍。UNxednc

UNxednc

同时，在端侧，与参考实现相比，在 KleidiAI 库的加持下，使用 llama.cpp库在新的 Arm Cortex-X925 CPU 上运行 Llama 3 的词元首次响应时间加快了 190%。UNxednc

UNxednc

构建 AI 的未来UNxednc

UNxednc

Arm 与 Meta 的合作成为了行业合作的新标杆，汇聚了 Arm 计算平台的灵活性、普及性和 AI 功能，以及 Meta 等行业巨头的技术专长，共同解锁AI 广泛应用的新机遇。无论是利用端侧 LLM 满足用户的个性化需求，如根据用户所处的位置、日程和偏好来执行任务，还是通过企业级应用来优化工作效率，让用户能够更专注于战略性任务，Arm 技术的集成都为未来奠定了基础。未来，设备不再只是命令和控制工具，更是能在提升用户整体体验方面扮演积极的作用。UNxednc

UNxednc

在 Arm CPU 上运行 Meta 最新 Llama 3.2 版本，其AI 性能实现了显著提升。这类开放式合作是实现无处不在的 AI 创新、促进 AI 可持续发展的最佳途径。通过新的 LLM、开源社区和 Arm 的计算平台，Arm 正在构建 AI 的未来，到 2025 年，将有 1000 多亿台基于 Arm 架构的设备支持 AI。UNxednc

UNxednc

###UNxednc

UNxednc

其他资源UNxednc

UNxednc

对于移动端和边缘侧生态系统开发者来说，Llama 3.2 可在基于 Arm Cortex CPU 的设备上高效运行。请参阅我们的文档，获取开发者资源。UNxednc

UNxednc

开发者可以从所有主要的云服务提供商访问 Arm，并在 Arm Neoverse CPU 上的云端运行 Llama 3.2。请参阅我们的文档，了解如何开始使用。UNxednc

UNxednc

– 完 –UNxednc

UNxednc

关于 ArmUNxednc

Arm 作为业界性能最强、能效最高的计算平台，以无可比拟的规模，覆盖全球 100% 的联网人群。Arm 提供先进的解决方案以满足对计算永无止尽的需求，进而赋能全球领先的科技公司释放前所未有的人工智能体验和性能。Arm 携手全球最广泛的计算生态系统和 2,000 万软件开发者，共同在 Arm 平台上构建人工智能的未来。UNxednc

UNxednc

责编：Ricardo

阅读全文，请先

新品操作系统人工智能

上一篇： 意法半导体推出FIPS 140-3认证TPM加密模块，面向计算机、服务器和嵌入式系统 下一篇： Melexis震撼推出双芯片堆叠式磁传感器，树立抗杂散磁场干扰安全磁感应新标杆

微信扫一扫
一键转发
最前沿的电子设计资讯
请关注“电子技术设计微信公众号”

毫米波雷达与音频技术重塑汽车驾乘新体验汽车行业的发展正由两大创新领域主导：更为精准可靠的车内感知系统和高质量音频系统。传统方法如增加传感器或音频设备数量，虽可提升性能但会带来成本上升和复杂性增加的问题。
性能飞跃！升级电流传感器NSM201x-P系列赋能汽车三电和纳芯微推出全新车规级集成电流路径霍尔传感器NSM201x-P系列。该系列产品是对纳芯微已量产的NSM201x系列的完美升级与补充···
意法半导体推出STSPIN32G0新列电机驱动器，满足工业自动意法半导体STSPIN32系列集成化电机驱动器新增八款产品，满足电动工具、家用电器、工业自动化等应用的低成本、高性能要求···
Melexis推出性能先进的温度传感器，以红外技术创新实现全球微电子工程公司Melexis宣布，推出专为电磁炉设计的非接触式红外温度传感器芯片MLX90617···
康佳特SMARC模块更新: 全新英特尔酷睿3处理器低功耗 SMARC 模块AI 加速和图形处理性能再次提升···
康佳特针对要求苛刻的实时应用推出新型高性能COM-HPC 基于英特尔酷睿 Bartlett Lake S处理器的模块性能全面提升···
为汽车安全保驾护航，纳芯微推出基于AMR技术的ABS轮速传纳芯微宣布推出全新基于AMR（各向异性磁阻技术）的轮速传感器NSM41xx系列。该系列产品通过集成先进的磁性传感敏感单元与ASIC技术，能够精准监测车轮转速，为防抱死制动系统（ABS）、车身电子稳定系统（ESP）以及电动转向助力系统（EPS）等控制系统提供了有力支持···
通嘉PD快充适配器高效能及小型化之氮化镓集成方案随着消费者对便携性和高效充电的需求增加，手机厂商和充电器品牌纷纷推出小型化PD快充产品，以满足市场需求···
瑞萨推出性能卓越的新型MOSFET 瑞萨全新晶圆技术可以帮助MOSFET实现导通电阻降低30%、栅漏电荷减少40%、封装尺寸缩小50%的目标···
加特兰集成 Cadence Tensilica ConnX 220 DSP ConnX 220 DSP 集成至基于下一代 Andes SoC 的加特兰雷达解决方案后，将带来显著优势，包括提高灵活性、优化处理能力，以及实现先进的成像雷达功能···
突破传统局限，泰克助力芯朋微理想二极管更安全、更高效在全球能源结构转型和可持续发展的大背景下，光伏产业作为可再生能源的主力军，正迎来前所未有的发展机遇···
Qorvo® 推出车规级 UWB SoC 芯片 QPF5100Q，凭借 Qorvo 全新的 UWB SoC 提供先进的 UWB 功能和可配置软件，使汽车设计师能够定制独特的功能，从而提升产品性能并为最终用户的应用带来差异化优势···

热门评论
最新评论

换一换

杂志声明

Arm 计算平台加持，全新 Llama 3.2 LLM实现AI 推理的全面加速和扩展