Remix:高分辨率目标检测,面向边缘设备、可调谐
The following article is from 微软研究院AI头条 Author 姜世琦
关注公众号,发现CV技术之美
编者按:目标检测技术在视频分析系统中是十分基础的功能模块,在许多视频分析场景中,若可以在边缘设备上直接运行目标检测模型,可极大提升检测效率,同时也可以降低使用成本。但是,如何在边缘设备运行计算密集的 DNN,以及降低在边缘设备进行检测时的推理延迟,成为了相关领域工作者们重点研究的方向。
为此,微软亚洲研究院的研究员们提出了 Remix 计算框架。其在充分分析和利用现有模型多样性能力的基础上,通过对有限计算资源的合理分配调度,实现了灵活可调谐的高分辨率目标检测。经评估,其效果已经达到 SOTA。相关研究成果“Flexible High-resolution Object Detection on Edge Devices with Tunable Latency”已被 MobiCom’21 (Winter Round) 收录。欢迎感兴趣的读者阅读论文全文,希望对你的研究能带来新的启发和灵感!
缩小高分辨率图片至现有模型的输入尺寸会极大降低目标检测的准确率。目前,现有模型接受的输入尺寸普遍偏小,如640x640,512x512。把 4K 的图片压缩至这样的尺寸,待检测的目标将会变得极小以至于很难被成功检测。例如,EffcientDet-D0 (512x512) 在 4K 测试数据集上只能达到1.1% mAP。
增大现有模型的规模至4K会极大增加推理延迟。构建更大的模型也可以处理更大尺寸的输入,然而通过在英伟达 Jetson Xavier 实测得到的数据显示,随着模型输入尺寸的增加,推理延迟呈现出指数级的增长。例如,EfficientDet-D7 (1536 x 1536) 的推理延迟已超过2秒,处理 4K 输入的模型推理延迟将会更大。
均匀分割高分辨率图片并处理仍会导致巨大的推理延迟。另外,目前普遍使用的工程实践是把图片按照现有模型的大小进行均匀分割,再使用对应的模型进行处理。经评估,这种做法会提高检测精度,但是会导致更大的推理延迟。例如,使用 EfficientDet-D0 均匀分割并处理一张 4K 图片,在 Jetson 上需要超过2秒的处理时间。
模型与其“边际收益”的多样性。图1展示的是不同规模的模型(EfficientDet-D0 ~ D7)在小(S0 ~ S3),中(M0 ~ M3),大(L0 ~ L3)不同尺寸的目标上所取得的检测精确度。如图所示,即便是小模型,在大尺寸的目标中也可以取得不错的效果。更重要的是,随着目标尺寸的变化,不同规模模型的“边际效应”截然不同。举例说明,EfficientDet-D6的推理延迟是 EfficientDet-D3 的5.4倍,EfficientDet-D6 检测准确率在 L3 尺寸的目标上,比 EfficientDet-D3 提高10%。然而在更小的目标,如 S3、M2 上,则会带来3.3倍与1.6倍的性能提升。从这个观察中可知,付出相同算力在不同目标上,带来的收益却完全不同。
然而要实现这个目标,还面临着几个主要挑战:
需要找到合适的区域划分方式并且针每个区域选择合适的模型,来平衡检测成功率与总体系统延迟。
需要找到目标的长期分布,同时也不能忽视内容的短期变动。
系统总体需要轻量化,支持多种边缘设备以及多样化设定。
“Remix”这个单词,按照维基百科上的解释是“重混音”。混音师们通过对原歌曲的再加工,增加、减除一些音符,改变其强弱、音高、速度、曲调长度等音乐元素,最终创作出令人耳目一新的音乐形式。事实上,这与研究员们的思想不谋而合,通过对高分辨率图片的适应性分割,合理分配算力以及选择性执行,实现了这个灵活高效可调谐的目标检测框架。
垂直应用领域的域信息可以被充分挖掘与利用。在实际的应用部署场景中,合理利用域信息、上下文信息往往可以起到事半功倍的效果,这与强调泛化能力的深度学习推理,或许可以形成良好的互补。Remix 的设计利用了视频分析(监控)应用中固定场景目标分布稳定并且稀疏的特性,大大减少了推理延迟,并把算力重新分配,又提高了检测准确率。
云(Cloud)与端(Edge)可以有更紧密的互动。在云上训练模型,然后部署到边缘设备上,这种单向的互动是普遍的工程实践。然而研究员们认为云上的强大算力应该为边缘智能的全生命周期“保驾护航”。比如在 Remix 中,边缘设备可以得益于云上分析得出的分割方案来加速推理提高准确率。再比如,近期讨论颇多的面向边缘设备的 Lifelong Learning, Continuous Learning 也是这种紧密互动的范例。
灵活可调谐的边缘推理。近年来人们设计出了多种多样的模型,但与此同时,边缘设备也越来越多样化。显然给每一个设备都设计一个最合适的模型是不现实的,那么有没有一劳永逸的方式来实现灵活可调谐的推理呢?即给定一个算力约束,模型或框架总能自动地最大化利用好所有资源并提供最佳性能。Remix 是一个尝试,接下来研究员们还会做更多的探索。
微软亚洲研究院异构计算组(Heterogeneous Extreme Computing)正在招聘实习生,欢迎对相关领域感兴趣的同学加入我们!
岗位详情:
https://www.msra.cn/zh-cn/jobs/interns/hex-research-intern
简历投递邮箱:
MSRAih@microsoft.com
END
欢迎加入「目标检测」交流群👇备注:OD