学术前沿 | 面向边缘AI的可转置存内计算芯片研究进展
导读
本文是北京大学人工智能研究院类脑智能芯片研究中心唐希源研究员团队在国际电路与系统领域顶级期刊IEEE Transactions on Circuits and Systems I: Regular Papers(TCAS-I)上发表论文 28nm 16Kb Bit-Scalable Charge-Domain Transpose 6T SRAM In-Memory Computing Macro的介绍。
北京大学博士后宋嘉豪为第一作者,唐希源研究员与王源教授为通讯作者。
论文链接(点击下方阅读原文):
https://ieeexplore.ieee.org/document/10044587
随着人工智能的飞速发展,AI在人们生活中起着越来越重要的作用。大量的边缘智能传感器被部署在人们的生活环境中,用于收集数据并自主做出决策。虽然这些智能设备带来了便利,但同时也带来了泄露个人隐私数据的风险。用户通常需要使用个人数据来重新训练或调整模型以适应其个人健康状况或生活习惯。在边缘端的功耗和计算资源限制下,用户仍需将个人数据上传到云端进行模型重训练。如果云服务提供商不可信,则可能导致隐私数据泄露。因此,人们希望能够直接在边缘端完成神经网络的重训练,从而避免将数据上传至云端。
尽管存内计算技术在处理AI推理时因为能够显著减少数据搬运功耗而被广泛使用(图1),但是由于反向传播需要读取模型权重矩阵的转置,传统的存内计算方案无法支持网络训练任务。随着智能应用快速推进,边缘端数据安全与网络训练高功耗、高成本的冲突日益严峻。
图1.存内计算架构以及可转置存内计算核的示意图
针对这一挑战,唐希源课题组提出了一种可同时实现高能效模型推断前馈计算与训练反向传播计算的可转置存内计算电路设计,该工作的整体架构如图2所示。
图2. 团队提出的可转置存内计算电路整体架构图与局域阵列示意图
为了在高密度的6T SRAM阵列中支持高精度可转置计算,该工作提出一种基于分簇结构的电荷域局域阵列设计。在分簇结构中,8个6T SRAM单元共用一个电荷域计算单元在位线电容上完成高精度的电荷域计算。因此,该工作的功能单元面积仅为6T SRAM的1.37倍,额外硬件开销很小。此外,该设计可以通过比特串行映射的方法对计算精度进行扩展。如图3所示,课题组基于28nm标准 CMOS工艺完成了可转置存内计算电路的芯片原型验证,芯片在前馈计算时的能效达到257.1TOPS/W,在反向传播计算时的能效达到31.8 TOPS/W,达到世界先进水平,并在CIFAR-10与MNIST数据集完成性能验证。该技术为边缘端智能提供了低功耗、高鲁棒性的AI加速器解决方案。
图3. 28nm芯片原型显微图
期刊介绍
IEEE Transactions on Circuits and Systems I: Regular Papers(TCAS-I)创刊于1952年,是IEEE电路与系统协会(IEEE Circuits and Systems Society)旗舰期刊,涵盖了所有集成电路与系统相关领域研究。该期刊编委成员包括了来自美国、日本、英国、德国、法国、意大利、中国、荷兰、加拿大、澳大利亚、比利时等20个国家的61位集成电路专家学者,其中包括7位IEEE Fellow。
团队介绍
唐希源助理教授于2021年加入北京大学人工智能研究院/集成电路学院从事模拟、混合信号芯片、人工智能芯片研究。2019年于德州大学奥斯汀分校取得博士学位,2019-2021年在德州大学奥斯汀分校从事博士后研究。
课题组主页:https://tangresearch.top/
课题组常年招收志在探索未知的研究生与博士后,请邮件联系:xitang@pku.edu.cn
— 往期发布 —
学术前沿 | 多人随机博弈中纳什均衡计算复杂度为PPAD-Complete
点击图片查看原文
学术前沿 | 从你画我猜游戏中涌现并演化图形符号系统
点击图片查看原文
学术前沿 | 知识图谱的【开世界假设】如何影响模型评估?
点击图片查看原文
— 版权声明 —
本微信公众号所有内容,由北京大学人工智能研究院微信自身创作、收集的文字、图片和音视频资料,版权属北京大学人工智能研究院微信所有;从公开渠道收集、整理及授权转载的文字、图片和音视频资料,版权属原作者。本公众号内容原作者如不愿在本号刊登内容,请及时通知本号,予以删除。