随着以ChatGPT为首的大模型的爆火,AI带来了一场新的革命,医疗、交通、智能零售、智能工厂、智能城市等各个领域,AI所展现出的前所未有的生产力提升,正让其加速融入每一个人的生活。边缘端也是如此,虽然仍然受限于嵌入式系统本身的尺寸、功耗、性能等多方面的限制,但是AI浪潮的席卷为所有的边缘设备带来了新的可能。
4月9日,AMD正式发布了其第二代Versal自适应SoC产品,其中包括第二代Versal AI Edge系列,也就是AI驱动型嵌入式系统,以及面向经典嵌入式系统的第二代Versal Prime系列。
根据官方的数据,第二代Versal自适应SoC在AI引擎、CPU、实时处理、可编程逻辑、安全性和集成化方面相较于第一代产品实现了显著的提升:
为了更为直观的展现第二代产品的优势,AMD自适应与嵌入式计算事业部( AECG ) Versal产品营销总监Manuel Uhm举出了三个具体的应用案例:
AI驱动型嵌入式系统一般包含预处理、AI推理、后处理三个阶段,常规的操作是使用包含可编程逻辑的非自适应SoC进行传感器数据的预处理,在推理过程当中使用矢量处理器,然后在后处理阶段去使用一些高性能的嵌入式CPU。也就是说,工程师需要使用一系列不同的处理器,才能对三个阶段进行优化,并没有一类处理器能够同时优化这三个阶段。
而AMD的第二代Versal自适应SoC产品最为独到的优势之一就是可以为嵌入式系统带来单芯片智能性,在单个器件中提供端到端的加速:
该阶段的目标是要降低时延和增加确定性,一般会有有两种处理方式,一是使用非自适应的SoC,虽然有的也有I/O接口或者硬ISP,但是它的数量往往非常有限,缺少灵活性。工程师如果想照顾不同的传感器,以及把更多不同类型的数据载入这个过程,就必须通过外部的内存来做存储和缓存,但由于这些处理器并没有经过优化,所以效率会变低,时延是也会变大。
另一种方法也就是第二代Versal自适应SoC所使用的可编程逻辑,这种方法更为灵活,因为有可编程I/O,可编程逻辑,还有硬IST,所以可以进行定制的可编程逻辑以实现差异化,并且由于不需要外部内存,也没有缓存的需求和设置,执行时间会非常短,时延也能够大大降低。
推理面临的主要挑战包括巨大的吞吐量,以及非常高的精准度要求等。由于新一代产品可以支持更多的数据类型,也就可以支持不同程度的精准度以及吞吐量,对于共享指数数据类型可以在提高吞吐量的同时也不减损精准度。
针对于不同的数据类型第二代Versal自适应SoC都可以实现非常高的吞吐量,在Dense TOPS方面,MX6数据类型,最高端为370 TFLOPS;INT8数据类型,最高端为184 TOPS,如果是稀疏度的话,性能还可以翻番。同时,新一代的AIE-ML v2 AI引擎,还支持一些推理以外的附加功能,如数据信号的处理(FIR、FFT等)、视觉以及其他。
对于这一阶段来说,CPU性能的提升是巨大的,10倍的标量算力,8倍的Arm Cortex-A78AE核心,10倍的Arm Cortex-R52核心,更高性能的CPU也就能支撑起更为复杂的运算。此外,第二代Versal自适应SoC还提高了功耗效率,并支持信息安全和功能安全,整个器件都是按照ASIL D、SIL 3级别设计,以更好的应对系统故障。
总的来说,与第一代产品相比,第二代Versal自适应SoC可以说是一代产品的补充而非替代,二者的目标应用并不重叠,二代产品所针对的主要是中央计算,而一代产品更多的是边缘传感器或者CPU卸载。而目前,第二代Versal AI Edge系列产品已经有了实际应用案例,斯巴鲁的EyeSight视觉系统就将基于该器件,以支持碰撞前制动、车道偏离预警、自适应巡航控制和车道保持辅助。
Manuel表示,现在早期试用计划已经展开,目前正与主要客户进行接洽,包括斯巴鲁,早期的访问文档现在已经发布,可以即刻采用第一代评估板和设计工具开始展开设计。第二代的Versal™ AI Edge系列和第二代的Versal Prime系列产品,样片会于2025年上半年发布,评估套件和系统模块将于2025年年中推出,量产芯片将于2025年末面世。