清华大学最新:Nature!

8月17日,加州大学圣地亚哥分校Gert Cauwenberghs,Siddharth Joshi,Weier Wan,斯坦福大学H.-S. Philip Wong,清华大学高滨及吴华强共同通讯在Nature在线发表题为“A compute-in-memory chip based on resistive random-access memory”的研究论文,该研究通过对从算法和架构到电路和设备的所有设计层次进行共同优化,展示了 NeuRRAM——一种基于 RRAM 的 CIM 芯片,它同时提供了为不同模型架构重新配置 CIM 内核的多功能性,能效是在各种计算位精度上比以前最先进的 RRAM-CIM 芯片好 1 倍,推理精度可与在各种 AI 任务中量化为四位权重的软件模型相媲美,包括 MNIST 上 99.0% 的准确率和 CIFAR-10 图像分类上 85.7% 的准确率,谷歌语音命令识别的准确率为 84.7%,在贝叶斯图像恢复任务中图像重建错误减少了 70%。

清华大学最新:Nature!

电阻式随机存取存储器 (RRAM) 内存计算 (CIM) 领域的早期研究侧重于在制造的 RRAM 设备上展示人工智能 (AI) 功能,同时使用片外软件和硬件来实现基本功能,例如模拟完整系统的数字转换和神经元激活。尽管这些研究提出了各种技术来减轻与模拟相关的硬件非理想性对推理准确性的影响,但报告的 AI 基准测试结果通常是通过基于特征设备数据执行软件仿真获得的。由于硬件非理想模型的不完整建模,与完全硬件测量的结果相比,这种方法通常会高估准确度。

最近的研究表明,完全集成的 RRAM 互补金属氧化物半导体 (CMOS) 芯片能够执行内存中矩阵向量乘法 (MVM)。然而,要在实际 AI 应用中广泛采用 RRAM-CIM 芯片,它需要同时提供高能效、支持各种 AI 模型架构的灵活性和软件可比的推理精度。到目前为止,还没有一项旨在同时改进设计的所有这三个方面的研究。此外,先前研究中的人工智能应用级基准测试的多样性和复杂性有限。

没有一项研究通过实验测量了多个边缘 AI 应用程序,其复杂性与 MLPerf Tiny 中的应用程序相匹配,MLPerf Tiny 是边缘 AI 硬件的常用基准套件。挑战来自效率、灵活性和准确性之间相互关联的权衡。RRAM-CIM 架构中的高度并行模拟计算带来了卓越的效率,但难以实现与数字电路相同水平的功能灵活性和计算精度。同时,由于在边缘使用较少的过度参数化模型,对于更复杂的 AI 任务,实现对硬件非理想的算法弹性变得更加困难。

清华大学最新:Nature!

NeuRRAM 芯片的设计方法和主要贡献(图源自Nature 

为了应对这些挑战,该研究展示了 NeuRRAM,这是一种 48 核 RRAM-CIM 硬件,涵盖了整个设计堆栈的创新。(1) 在器件层面,3 百万个具有高模拟可编程性的 RRAM 器件与 CMOS 电路单片集成;(2) 在电路层面,电压模式神经元电路支持可变计算位精度和激活函数,同时以低功耗和紧凑的面积进行模数转换;(3) 在架构层面,双向转座神经突触阵列 (TNSA) 架构能够以最小的面积和能量开销实现数据流方向的可重构性;(4)在系统层面,48个CIM核心可以并行进行推理,支持多种权重映射策略;(5) 在算法层面,各种硬件算法协同优化技术减轻了硬件非理想对推理精度的影响。

该研究报告了一系列 AI 任务的完全硬件测量推理结果,包括使用 CIFAR-10 和 MNIST 数据集的图像分类、Google 语音命令识别和 MNIST 图像恢复,使用各种 AI 模型实现,包括卷积神经网络 (CNN)、长短 长期记忆(LSTM)和概率图模型。该芯片经过测量可实现比以前最先进的 RRAM-CIM 芯片更低的能量延迟积 (EDP),同时它在一系列配置上运行以适应各种 AI 基准应用程序。

该研究通过对从算法和架构到电路和设备的所有设计层次进行共同优化,展示了 NeuRRAM——一种基于 RRAM 的 CIM 芯片,它同时提供了为不同模型架构重新配置 CIM 内核的多功能性,能效是在各种计算位精度上比以前最先进的 RRAM-CIM 芯片好 1 倍,推理精度可与在各种 AI 任务中量化为四位权重的软件模型相媲美,包括 MNIST 上 99.0% 的准确率和 CIFAR-10 图像分类上 85.7% 的准确率,谷歌语音命令识别的准确率为 84.7%,在贝叶斯图像恢复任务中图像重建错误减少了 70%。

论文信息:https://www.nature.com/articles/s41586-022-04992-8

发表回复

您的电子邮箱地址不会被公开。

关注谷粉公众号