新创公司、企业巨擘和学术界开始重新审视十年前开发的处理器架构,看好它或许刚好就是机器学习(machine learning)的理想选择。他们认为,「内存式运算」(In-Memory Computing;IMC)架构可望推动新型的人工智能(AI)加速器进展,使其速度较现行的GPU更快1万倍。
这些处理器承诺可在CMOS微缩速度放缓之际扩展芯片性能,而要求密集乘法累积数组的深度学习算法也正逐渐获得动能。这些芯片虽然距离商用化上市还有一年多的时间,但也可能成为推动新兴非挥发性内存成长的引擎。
例如,新创公司Mythic瞄准在闪存(flash)数组内部进行神经网络运算任务,致力于从模拟领域降低功耗。该公司的目标是在2019年底量产芯片,成为率先推出这一类新芯片的公司之一。
美国圣母大学(Notre Dame)电子工程系系主任Suman Datta说:「在我们学术界大多数的人认为,新兴内存将成为实现内存处理器(processor-in-memory;PIM)的技术之一。采用新的非挥发性内存将意味着创造新的使用模式,而内存式运算架构将是关键之一。」
Datta指出,在1990年代,有几位学者试图打造这样的处理器。诸如EXECUBE、IRAM和FlexRAM之类的设计都「失败了,而今,随着相变内存(PCM)、电阻式RAM (RRAM)和STT MRAM等新兴内存出现,以及业界对于机器学习硬件加速器的兴趣浓厚,开始振兴这个领域的研究。不过,据我所知,大部份的展示都还是在组件或组件数组层级进行,而不是一个完整的加速器。」
其中一家竞争对手来自IBM于2016年首次披露的「电阻处理器」(Resistive Processing Unit;RPU)。这是一款4,096 x 4,096交叉数组的模拟组件。
IBM研究员Vijay Narayanan认为,「其挑战在于找出正确的模拟内存元素是什么——我们正在评估相变、RRAM和铁电。」Vijay Narayanan同时也是一位材料科学家,他主要的研究领域是在高K金属闸极。
在2015年,美国史丹佛大学(Stanford University)也曾经发布在这一领域的研究。中国和韩国的研究人员也在追求这一理念。
为了实现成功,研究人员需要找到兼容于CMOS晶圆厂的内存组件所需材料。此外,Narayanan说,「真正的挑战」就在于必须在施加电压时展现对称的电导或电阻。
IBM Research的材料科学家Vijay Narayanan表示,大多数用于AI的内存处理器仍处于研究阶段,距离可上市的时间约三至五年 (来源:IBM)
IBM至今已经制造出一些离散式组件和数组,但并不是一款具有4Kx4K数组的完整测试芯片,也尚未采用目前所认为的理想材料。Narayanan表示,IBM的Geoff Burr在500 x 661数组上采用相变材料进行深度神经网络(DNN)训练,而其结果显示「合理的精确度和加速度」。
「我们正稳步前进,但了解还必须改善现有的材料,而且也在评估新材料。」
IBM希望使用模拟组件,以便能够定义多个电导状态,从而较数字组件更有助于为低功耗操作开启大门。该公司还看好大型数组可望成为平行执行多项AI操作的大好机会。
Narayanan乐观地认为,IBM可以利用其于高k金属闸极方面累积的多年经验,找到调整AI加速器电阻的材料。他花了十几年的时间,才将IBM在该领域的专业知识从研究转向商业产品,并与格芯(Globalfoundries)和三星(Samsung)等业界伙伴合作。
展望未来,IBM将致力于开发闸极全环(GAA)晶体管,将奈米片用于7nm节点以外的应用。他认为这一类的设计并不存在根本的障碍,而只是实施的问题。
除了奈米片之外,研究人员正在探索负电容场效晶体管(FET),这些FET可在电压变化很小的情况下提供较大的电流变化。从研究人员发现这种掺杂氧化铪是铁电材料,而且可能兼容于CMOS后,过去这五年来,这种想法越来越受到关注。
但Narayanan也说,「目前还有很多反对者以及同时支持二者的人。」
「我们的研究显示,负电容是一种短暂的效应,」Notre Dame的Datta说,「因此,当极化开关切换时,通道电荷得以暂时启动,而一旦瞬时稳定后就不会再取得任何结果。」
美国加州大学柏克莱分校(UC Berkeley)的研究人员则「相信这是一种重要的『新状态』。因此,故事仍在继续发展中,可以说大部份的公司都在内部进行评估中。」
(原文发表于ASPENCORE旗下EDN姐妹媒体EETimes,参考链接:AI Revives In-Memory Processors;编译:Susan Hong)