先进的人工智能(AI),如生成式AI,正在增强我们所有的智能设备。然而,一个常见的误解是,这些AI工作负载只能在云端和数据中心处理。事实上,大多数AI推理工作负载都可以在边缘(即实际设备上)处理,这些工作负载运行成本比训练更低、运行速度也更快。
如今,CPU在各种设备上的应用和不断增长的AI功能正在帮助将更多的AI推理处理推向边缘。虽然异构计算方法为行业提供了使用不同计算组件(包括CPU、GPU和NPU)来满足不同AI用例和需求的灵活性,但边缘计算中的AI推理才是CPU大显身手的地方。
有鉴于此,以下将具体介绍CPU成为AI推理工作负载最佳目标的五大理由。
边缘AI处理对科技行业非常重要,因为边缘AI处理越多,需要发送到云端或从云端发送处理的数据就越少,从而可以节省更多电量。这将大大节省能源和成本,并且由于数据在本地处理,用户还可以享受更快、响应更快的AI推理体验以及更高的隐私性。这些对于功耗受限的设备和边缘应用尤其重要,例如无人机、智能可穿戴设备和智能家居设备,因为这些设备的功耗、延迟和安全性至关重要。在这种情况下,CPU起着关键的作用,因为它能够以最有效的方式处理这些AI推理任务。
CPU的多功能性使其能够处理各种AI推理任务,尤其是对于需要快速响应和可靠性能的应用和设备。例如,实时数据处理任务(如预测性维护、环境监测或自主导航)在CPU上可以更高效、更快速地处理。在工业物联网应用中,这可确保系统能够在几毫秒内对其环境或其环境中的任何变化做出响应,这对于安全性和功能性至关重要。
CPU支持各种AI框架,例如Meta的PyTorch和ExecuTorch以及Google AI Edge的MediaPipe,因此可以轻松部署大语言模型(LLM)进行AI推理。这些LLM正在快速发展,参数数量不断减少的小型紧凑模型将带来非凡的用户体验。模型越小,它在CPU上运行的效率就越高。
小型LLM(如新版Llama 3.2 1B和3B)的推出对于实现大规模AI推理至关重要。最近,Arm演示了通过Arm CPU优化内核在Arm驱动的移动设备上运行Llama 3.2 3B LLM,可将提示词处理速度提高5倍,将token生成速度提高3倍。
我们已经看到开发人员在编写更紧凑的模型,以便在低功耗处理器甚至微控制器上运行,从而节省时间和成本。Plumerai公司提供用于加速Arm Cortex-A和Cortex-M片上系统(SoC)上的神经网络的软件解决方案,该公司在基于Arm的微控制器上运行的仅1MB上下的AI代码,可执行面部检测和识别。为了保护用户隐私,所有推理都在芯片上完成,因此不会将任何面部特征或其他个人数据发送到云端进行分析。
由于CPU的灵活性和可编程性,软件社区正积极选择将它作为处理AI工作负载的首选途径。CPU的灵活性更高,这意味着开发人员可以运行范围更广、数据格式更多样化的软件,而无需开发人员构建多个版本的代码。同时,每个月都会出现具有不同架构和量化方案的新模型,由于CPU具有高度的可编程性,这些新模型可以在数小时内部署到CPU上。
这种开发人员的创新建立在CPU架构的基础上,该架构不断增加新的功能和指令来处理更高级的AI工作负载。CPU的普及意味着开发人员可以访问这些功能,从而进一步加速和创新基于AI的体验。事实上,CPU架构的不断发展与现在更快、更智能的应用程序的发展直接相关。
CPU不仅仅是SoC设计的一个组成部分,它还能让人工智能在各种边缘应用和设备中变得实用、高效和易用。CPU集效率、多功能性和可访问性于一身,对于AI推理来说不可或缺。通过在边缘处理人工智能任务,CPU有助于降低能耗和延迟,同时为终端用户提供更快、反应更灵敏的人工智能体验。随着AI不断发展并渗透到技术的方方面面,CPU在处理AI推理工作负载方面的作用只会越来越大,从而确保AI可以在各行各业中得到广泛且可持续地部署。
(原文刊登于EDN姊妹网站Embedded,参考链接:Top 5 Reasons why CPU is the Best Processor for AI Inference,由Ricardo Xie编译。)