首页
下载应用
提交文章
关于我们
🔥 热搜 🔥
1
1
2
1'"
3
1'
4
123456
5
kN
6
朱令去世一周年,清华学子控诉清华在朱令案中的冷血和无耻
7
张靓颖
8
抖音
9
鱿鱼游戏
10
朱令
分类
社会
娱乐
国际
人权
科技
经济
其它
首页
下载应用
提交文章
关于我们
🔥
热搜
🔥
1
1
2
1'"
3
1'
4
123456
5
kN
6
朱令去世一周年,清华学子控诉清华在朱令案中的冷血和无耻
7
张靓颖
8
抖音
9
鱿鱼游戏
10
朱令
分类
社会
娱乐
国际
人权
科技
经济
其它
《鱿鱼游戏2》今天下午四点开播,网友无心上班了,导演悄悄剧透
刘恺威近况曝光,父亲刘丹证实已分手,目前失业在家,没有资源
紧急通告!三高的“克星”终于被找到了!!不是吃素和控糖,而是多喝它....
话费充值活动来了:95元充值100元电话费!
跟着南通住建局学“朝令夕改”
生成图片,分享到微信朋友圈
查看原文
其他
旷视天元 MegEngine 开源 CUDA INT4 量化源码实现
Original
MegEngine
旷视研究院
2022-12-18
收录于合集 #天元MegEngine
42个
当下人工智能技术正加速发展,渗透到云、边、端和应用的各个层面,与海量IoT设备进行深度融合,不断拓展应用场景。然而在AIoT场景中,嵌入式设备往往算力有限,难以承载庞大的AI模型。如何在资源有限的终端场景实现 AI 模型的有效部署,是加速AI落地的重要问题。AI 工程师们研发了各种试图缩小模型大小并保持性能的办法,例如量化和蒸馏。其中,模型量化是将浮点计算转成低比特定点计算的一种模型压缩技术,可以有效减少模型算力消耗并提升计算速度,当前已经在工业界发展比较成熟。
目前相对成熟的模型量化方案是 INT8 量化。以ResNet-50 模型为例,原本需要用 float 32 表示的权重,量化后只需要使用 INT8 表示,通过这样的处理,模型体积可以减少到原来的1/2,再加上 TensorCore 的加持,还会有近 8 倍的网络加速。而如果更进一步,将模型用INT4 表示,可以带来更多的速度提升。
为了推动低比特量化技术的发展,旷视天元MegEngine 团队开源了 INT4 的源码实现,这也让MegEngine成为
首个开源 CUDA INT4 源码实现的深度学习框架
。MegEngine采用均匀线性量化方案,实现了非对称量化和对称量化两种INT4的数据类型,同时通过算子融合优化、kernel优化等方法,使得量化后的模型可以依然保持较高的精度以及良好的运行速度。同样以ResNet-50为例,INT4 相比 INT8 有 1.3倍的加速。
具体代码实现可以查看文末“阅读原文”
随着 CUDA INT4 的开源,目前MegEngine 框架不仅支持浮点数 FP32 和 FP16,而且支持 INT8 和 INT4 的对称和非对称量化推理。此外,MegEngine框架开发了诸多工具,帮助用户提升模型推理性能、简化部署流程,包括自动代码裁剪功能,支持用户全自动的针对算子进行代码裁剪;TracedModule 方案以及 MegEngine Lite,基于旷视海量业务打磨出的模型推理最佳实践,化解模型转换部署难题;流程管理工具FastRun, 可以为每个计算自动选择最快的算法,从而保证整个网络的运行时间最短,让 MegEngine 用户运行不同的网络时都能收获最好性能。
自开源以来,MegEngine不断优化,已先后发布29个版本,推出一系列实用功能,降低AI算法生产门槛,助力AI应用快速落地。未来,旷视将继续支持和拥抱开源,并将自身在开源领域积累的技术和经验与业界共享,推动人工智能技术创新和行业发展。
点击“阅读原文”,访问GitHub链接了解详情
直播预告
在本届2022 世界人工智能大会(WAIC)上,旷视天元MegEngine 异构计算组负责人王彪,将出席今晚的技术 Workshop,为大家分享开源深度学习框架实现支持 CUDA int4的设计思路和踩坑经验。
您可能也对以下帖子感兴趣
{{{title}}}
文章有问题?点此查看未经处理的缓存