广告

ReRAM可增强边缘AI

2018-10-10 09:37:20 Sylvain Dubois 阅读:
随着AI功能逐渐向边缘端发展,它们将推动更多的AI应用,而且这些应用将越来越需要更强大的分析能力和智能,以便让系统在本地即可做出操作决策,无论是部分还是完全自主的,就像在自动驾驶汽车中一样。

机器学习有两个基本阶段:训练和推理。人工神经网络,旨在模仿大脑的工作方式,首先要面对大量的已知数据(例如狗和猫的图片),这样才能学会识别每个物体的样子以及它们的不同之处。然后,经过训练的神经网络或模型就可以利用所学到的知识,对呈现在面前的新数据进行推理以推断出新的事物,比如,确定一个图像是狗还是猫。5Niednc

目前大多数训练都是在数据中心进行的,但也有少数是在边缘端进行。像谷歌、Facebook、亚马逊、苹果和微软这样的大公司都拥有海量的用户数据,因此可以为他们的服务器农场提供足够多的数据,进行工业规模的AI训练,以便改进其算法。训练阶段需要非常快的处理器,例如GPU或Google TPU(张量处理器)。5Niednc

边缘设备收集到数据(例如建筑物图片或面部照片)后,将其传送到推理引擎进行分类时,就会发生推理。基于云端的AI因为其固有的延迟缺点,对许多应用来说是不可接受的。例如,自动驾驶汽车需要对其看到的对象做出实时决策,对基于云端的AI架构来说,这是不可能实现的。5Niednc

随着AI功能逐渐向边缘端发展,它们将推动更多的AI应用,而且这些应用将越来越需要更强大的分析能力和智能,以便让系统在本地即可做出操作决策,无论是部分还是完全自主的,就像在自动驾驶汽车中一样。5Niednc

传统的CPU不是很擅长这类任务,而且高端GPU耗能很大且价格昂贵。边缘端推理就要求更便宜、功率更低的芯片,可快速通过神经网络来识别一个动物,识别一张脸,锁定一个肿瘤,或将德语翻译成英语。5Niednc

如今,有超过30家公司正在研发专用的AI硬件,以用于智能手机、平板电脑和其他边缘设备中,来提高完成这些专业计算任务的效率。5Niednc

据市场分析预测,从2017到2021年,全球AI芯片市场将以高达54%的年复合增长率而增长。这一增长的关键驱动因素就在于能够满足机器学习要求的强大硬件性能。5Niednc

消除存储器瓶颈

所有AI处理器都依赖于数据集,即代表“学过的”对象类别(比如图像和声音等)的模型,来识别对象。每个对象的识别和分类都需要多次访问内存。当今工程师面临的最大挑战是如何克服现有架构中的内存访问速度和功耗瓶颈,以获得更快的数据访问,同时降低数据存取的能源成本。5Niednc

通过尽可能靠近AI处理器内核来存放训练数据,可以获得最快的速度和最大能效。但是,目前的设计所采用的存储架构都是几年前还没有其他实用解决方案时创建的,仍然是快速但小容量的嵌入式SRAM与大容量但较慢的外部DRAM的传统组合。当训练模型以这种方式存储时,嵌入式SRAM、外部DRAM和神经网络之间频繁和大规模的数据交换会增加能耗及传输延迟。此外,SRAM和DRAM都是易失性存储器,限制了在待机状态实现节能的能力。5Niednc

2018092715168-1.jpg5Niednc

图1:存储器位于AI架构的中心。5Niednc

利用高密度、高速和低功耗的非易失性存储器将整个训练模型直接存储在AI处理器裸片上,这样就可以实现更高的能效和速度。通过启用以存储器为中心的新架构,整个训练模型或知识库就可以放在芯片上,直接连接到神经网络,这样就有潜力实现大规模节能和性能大幅提升,从而大大延长电池寿命并提供更好的用户体验。今天,已经有几种新一代存储器技术正在竞相实现这一目标。5Niednc

ReRAM的潜力

针对AI应用的理想非易失性嵌入式存储器应该具备如下特点:容易制造,易于集成到熟知的CMOS工艺的后端,可轻松扩展到高级节点,可以大批量供应,并且能够满足这些应用对能耗和速度的要求。5Niednc

电阻式RAM(ReRAM)比磁性RAM(MRAM)或相变存储器(PCM)方案具有更强的可扩展性能,这在考虑14、12甚至7nm晶圆工艺时是一个重要的因素。其他技术都要求比ReRAM更复杂和昂贵的制造工艺,而且还更耗能。5Niednc

2018092715168-2.jpg2018092715168-1.jpg5Niednc

图2:ReRAM可以填补存储器技术的空白。5Niednc

例如,Crossbar公司的ReRAM纳米丝技术可以在不影响性能的情况下缩小到10nm以下。ReRAM基于简单的器件结构,采用适合CMOS工艺的材料和标准制造流程,可在现有CMOS晶圆厂生产。由于它是一种低温、后端工艺集成,因此可以在CMOS逻辑晶圆上集成多层ReRAM阵列,以构建3D ReRAM存储空间。5Niednc

AI需要最佳的每瓦性能,尤其对于小功率的边缘设备。ReRAM的能效可达到DRAM的五倍——每纳焦高达1,000位读取——同时表现出比DRAM更好的整体读取性能,高达12.8GB/s,而随机延迟小于20ns。5Niednc

以内存为中心的架构

科学家们一直在探索各种新颖的大脑启发思维范式,试图通过模仿中枢神经系统的神经元和突触交互的方式来实现更高的能效。基于ReRAM技术的人工神经突触是一种非常有前途的方法,可用于在神经形态结构中实现这些高密度和可缩放的突触阵列。通过在边缘端启用AI,ReRAM有可能在当前和全新的AI探索中发挥重要作用。5Niednc

本文为电子技术设计原创文章,未经授权禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
  • 微信扫一扫
    一键转发
  • 最前沿的电子设计资讯
    请关注“电子技术设计微信公众号”
广告
热门推荐
广告
广告
广告
EE直播间
在线研讨会
广告
面包芯语
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了