据EDN电子技术设计报道,日前谷歌员工和加州大学伯克利分校的学者发表报告称,他们已经开发出一种名为 PRIME 的深度学习方法,该方法通过借鉴现有的蓝图和性能数据来生成 AI 芯片架构。
他们声称,与 Google 的生产中 EdgeTPU 加速器和其他使用传统工具制作的设计相比,他们的方法可以生产出延迟更低且所需空间更少的设计。
谷歌早在去年就表示:“利用深度学习的力量来搜索更好的参数空间来设计电路,比人脑的穷尽更有效率。”这些最新发现可能会使谷歌成为定制芯片设计的规则改变者。
它们在一篇题为“Data-Driven Offline Optimization for Architecting Hardware Accelerators”的论文中进行了详细说明,该论文被今年的国际学习代表大会接受。
研究人员表示,除了能够实现更快、更高效的设计之外,PRIME 方法也很重要,因为传统的基于仿真的芯片设计可能非常耗时且计算成本高昂。他们表示,在尝试针对低功耗或低延迟等某些事情进行优化时,使用仿真软件设计芯片也可能导致“不可行”的蓝图。
该团队表示,与使用模拟驱动方法创建的芯片设计相比,采用 PRIME 方式的芯片设计延迟最多可减少 50%,而深度学习方法还将生成上述蓝图的时间减少了 99%。
研究人员将 PRIME 生成的芯片设计与仿真生成的 EdgeTPU 进行了九个 AI 应用程序的比较,其中包括图像分类模型 MobileNetV2 和 MobileNetEdge。至关重要的是,PRIME 设计针对每个应用进行了优化。
他们表示,他们发现 PRIME 芯片设计总体上将延迟提高了 2.7 倍,并将芯片面积使用减少了 1.5 倍。最后一部分震惊了研究人员,因为他们没有训练 PRIME 来减小芯片尺寸,这可以使芯片更便宜并降低功耗。对于某些型号,延迟和裸片面积的改进更大。
研究人员还使用 PRIME 设计了经过优化的芯片,可以在多种应用中正常工作。他们发现 PRIME 设计的延迟仍然低于仿真驱动设计。也许更令人惊讶的是,当 PRIME 设计在没有训练数据的应用程序上运行时,情况也是如此。更重要的是,性能随着应用程序的增加而提高。
最后,研究人员使用 PRIME 设计了一种可以在上述九种应用中提供最佳性能的芯片。只有三个应用程序的 PRIME 设计比模拟驱动设计具有更高的延迟,研究人员发现这是因为 PRIME 偏爱具有更大片上内存的设计,因此处理能力更低。
研究人员深入研究 PRIME 的实际工作原理,创建了所谓的稳健预测模型,该模型通过输入 AI 芯片蓝图的离线数据(包括那些不起作用的数据)来学习如何生成优化的芯片设计。为了避免与使用监督机器学习相关的典型陷阱,研究人员设计了 PRIME 以避免被所谓的对抗性示例误导。
研究人员表示,这种方法允许模型针对目标应用进行优化。PRIME 还可以针对没有训练数据的应用程序进行优化,这是通过跨有数据可用的应用程序在设计数据上训练单个大型模型来完成的。
虽然这不会在一夜之间改变谷歌的芯片工程方式,但研究人员表示,它有望提供多种途径。这包括为需要解决复杂优化问题的应用程序创建芯片,以及使用性能低下的芯片蓝图作为训练数据来帮助启动硬件设计。
由于 PRIME 的通用性,他们还希望将其用于硬件-软件协同设计。