在日常生活中,科技驱动的体验在我们对科技的了解程度和其起源本身是两回事。我们先想一下全球相当一部分人的某种体验,再来看一种所有生物(包括无生命体)都有的体验来举例说明。
世界上大约有63%的人口接入互联网(数据来源:Statista),其中大多数人都通过网页体验互联网。因此,在大众的认知中,“互联网”与“网页”几乎是画等号的。当然,技术从业者们了解两者的区别,但万维网(WWW)是在何时以及何地发明的,他们或许记得,也或许早已遗忘。如果没有万维网的问世,今天的互联网体验将截然不同。
所有生物100%会自动体验到一种东西,那就是它们的“质量”,大家时常将其与“重量”这个词错误地划上了等号。当然,那些还记得物理学知识的人能分辨这两个词的不同。尽管在普通物理学中,物质的质量被视为理所当然的特性,但仍有一个物理学领域尝试解释物质的质量究竟从何而来。而最终在人类发现希格斯玻色子粒子时,质量赋予场才得到了证实。
欧洲核子研究组织(CERN)正是发明万维网、发现希格斯玻色子以及取得其他诸多非凡发明的幕后英雄。万维网是蒂姆·伯纳斯-李(Tim Berners-Lee)于1989年发明的,彼时他正在CERN工作。2012年,当CERN发现希格斯玻色子粒子时,质量赋予场的存在得到了证实。
CERN目前正在开展一个饶有趣味的粒子物理项目,在这个项目中他们使用了CEVA的边缘AI技术和解决方案。本文将介绍这个项目以及该项目的启动初衷和开展方式,并展示一些关于CEVA的边缘AI技术相较于其他解决方案的基准测试结果。
边缘AI指代那些部署在离数据中心(即云端)较远而更为靠近消费者(即边缘)的设备上的人工智能应用。“边缘”之名源自计算是在靠近网络边缘侧完成,而非在数据中心侧进行。边缘AI智能技术已得到了广泛的应用,其好处也是不胜枚举,例如提高性能、保障数据隐私、降低功耗等等。
粒子物理学是物理学的一个分支,它涉及亚原子粒子的特性、关联和相互作用。宇宙万物皆由粒子组成。粒子物理学的典型模型是描述电磁、弱核力和强核力以及对所有已知基本粒子进行分类的理论。但夸克却无法使用这种模型来解释,尽管它是一种基本粒子,也是物质的基本成分。夸克相互结合,构成复合亚原子粒子,也被称为强子。而质子和中子则是已知的强子中最稳定的。
在宇宙诞生之初,所有粒子都以接近光的速度转动,因为粒子没有质量。仅在粒子获得质量之后,恒星、行星和后来的生命才相继诞生。与希格斯玻色子粒子相关的希格斯玻色子场是粒子质量的来源。因此,这项发现对于粒子物理学领域意义非凡。有传言说,诺贝尔物理学奖得主莱昂·莱德曼曾经将这种粒子称为“那种该死的粒子”,强调检测到这种粒子究竟有多难。CERN拥有大型强子对撞机(LHC),这是世界上体积最大、功能最强大的粒子加速器。大型强子对撞机由一个长达27km的超导磁体环组成,拥有大量的加速结构,可提高途经该磁体环的粒子的能量。在磁体环上行进的过程中,一些点位可能会发生碰撞。在这些点位上均设有体积堪比建筑物的探测器,用来分析碰撞。其中一个探测器是CMS实验探测器。这座探测器长28.7m,直径15m,重约14,000t。来自47个国家/地区中206个科研机构的4,000多人组建成CMS协作团队,共同建造了这座探测器,目前也在负责操控这座探测器。
尽管业界在各类面向消费者的应用中使用AI的新闻屡见不鲜,但对于在粒子物理学中使用AI技术的讨论并不多。实际上,数十年来,AI一直在增强和改进粒子物理学研究。例如,在发现希格斯玻色子粒子时,就用到了作为AI算法基础的神经网络。AI赋能物理学家让他们能够更好地基于强子碰撞碎片重建粒子并解析结果。
在与面向数据中心的解决方案相比上,边缘AI还以卓越的能效著称。高能耗是服务器农场的已知问题之一,原因就在于其涉及到高强度硬件计算,并且有着全天候工作的特性。而粒子物理学实验同样需要全天候运行,而且数据和计算强度都很高,因此需要耗费大量的带宽和能源。基于边缘AI硬件的解决方案可以压缩运行粒子物理学实验所用的大量数据,因此从能效的角度考虑,也颇有吸引力。
CERN在其项目中使用了世界上最大的强子对撞机和其他多种复杂的科学仪器。实验通常全天候运行,粒子碰撞会生成大量数据,而且数据量过于庞大,以至于无法存储下来等待后续处理。每个交叉点产生的原始数据量约为1MB,在40MHz的交叉速率下,每秒产生的数据量达到40TB,实验仪器根本无法存储这种量级的数量,更不必说妥善处理。全触发系统可降低值得关注的事件的发生率,达到每秒1,000个的可管理程度。由于所生成的大多数数据都没有价值可言,AI处理算法需要高效、有效地即时处理数据,以决定哪些碰撞值得关注。实现AI算法的硬件解决方案必须具有出色的性能和极高的能效。
大型强子对撞机以40MHz的标称质子间碰撞速率运行。触发系统通过两个阶段降低碰撞率:
当前解决方案在处理所生成数据方面耗费了太多的计算时间和能量。CERN还期望在不久的将来将碰撞率提高四倍。与此同时,处理算法在第2级中的延迟预计将提高12倍。他们需要在性能和功耗方面更出色、更具可扩展性的解决方案。
CERN希望将神经网络的比特表示减少到2b,以减少带宽和延迟。为了实现这样的解决方案,需要专用的硬件。但市面上并没有高效的AI硬件能支持2b乘法。在探索市面上的各种解决方案之后,在以色列创新局(IIA)的支持和赞助下,CERN决定与CEVA合作,以落地自身的需求。
CEVA是全球领先的无线连接、智能传感技术以及集成IP解决方案的授权商,致力于打造更智能、更安全的互联世界。他们提供数字信号处理器、人工智能引擎、无线平台、加密内核以及与传感器融合、图像增强、计算机视觉、语音输入和人工智能相关的辅助软件。
CEVA提出了一种深度学习解决方案,用于对喷注粒子进行检测和分类。在粒子物理学中,一个“喷注”(jet)就是由一个夸克的强子化产生的强子和其他粒子构成的窄锥体。双方商定,CERN将开发网络压缩算法,而CEVA将开发低比特AI DSP内核。
CEVA使用二元神经网络(BNN)和三元权重网络(TWN)的硬件来进行试验。作为探索的一部分,CEVA成功在SensPro DSP中实现了。CEVA评估了2b(三元表示法:-1、0、1)和1b精度(二元表示法:0、1)的使用情况。BNN加速块被设计出来作为SensPro内核的一部分,用于分载8x2(数据x权重)和2x2卷积。典型的神经网络量子化通过实现8b定点精度的算术计算来达到x4压缩的效果。但正如前文所述,CERN有着极高的延迟要求,因此要求权重为2b。尽管他们计划将来切换到8比特定点精度,但数据仍保持为32b浮点格式。
输入到物体探测网络中的“图像”通过将发射粒子的较低等级探测器测量值(1级)投射到圆柱形探测器(量热计)上获得。随后通过展开量热计的内表面获得矩形图像。量热仪是一种用于测量化学反应或其他过程所涉及的热量或能量的设备。喷注图像将通过量热仪单元解析为像素,像素的强度对应于该单元的能量沉积。图像的x轴为碰撞角度,y轴为单元能量。
在开发边缘AI解决方案时,重点在于了解要使用哪些神经网络拓扑结构来实现处理算法。CEVA提供了这方面的指导,并就如何正确表示数据和权重为CERN提供了建议,以确保部署顺利进行,并尽可能的使误差最小化。CERN在考虑到了CEVA关于实际硬件部署的所有相关意见后,建立了一种量子化感知训练算法。量子化感知训练有助于在不影响准确性的前提下,实现较低精度的训练神经网络部署。
结果超越了所有现存的算法解决方案。参考下面的“精度-查全率”曲线,精度(PPV)衡量预测的准确性,而查全率(TPR)衡量正向预测的质量。总体而言,这两项指标决定了所找到的喷注集与预期应找到的喷注集的对应程度。
CEVA的DSP内核超越了GPU和CPU解决方案的表现。参考下表,比较这些内核在晶片面积、功率和延迟方面的表现。该表的第二行显示了基于CEVA SensPro的解决方案与Nvidia Tesla V100 GPU内核的同类比较。
边缘AI解决方案不仅适用于面向消费者的边缘设备应用。即使对于研究宇宙起源的应用来说,这类解决方案也卓然有效。CEVA为粒子物理学领域首屈一指的研究机构CERN开发的基于SensPro的边缘解决方案就印证了这一点。