查看原文
其他

CV领域不断突破,原创成果连连!音频领域初探自带光环!OpenMMLab季报报告请收好

OpenMMLab OpenMMLab 2024-04-23


时光荏苒,岁月如梭,不知不觉,我们又一起走过了 2023 年。在刚过去的三个月里,OpenMMLab 又攒了哪些“瓷器活儿”,各个算法库进行了哪些重大更新?社区里开展了哪些精彩的活动呢?现在我们就来向社区的小伙们报告啦!


01

核心进展


Beyond Vision! 

综合音频合成项目 Amphion 重磅发布


OpenMMLab 首次涉足音频与语音领域,联合香港中文大学(深圳)数据科学学院武执政副教授团队开源了综合音频生成项目 Amphion(安菲翁)。该系统旨在打造一个面向科研群体及刚进入或想要进入该领域的工程师的,集语音合成及转换、歌声合成及转换、音效及音乐生成等多功能为一体的开源平台。


项目地址:

https://github.com/open-mmlab/Amphion


MM-Grounding-DINO: 轻松涨点,

数据到评测全面开源


Grounding DINO 是一个统一了 2d 开放词汇目标检测和 Phrase Grounding 的检测预训练模型,应用广泛,但是其训练部分并未开源,为此我们提出了 MM-Grounding-DINO。其不仅作为 Grounding DINO 的开源复现版,MM-Grounding-DINO 基于重新构建的数据类型出发,在探索了不同数据集组合和初始化策略基础上实现了 Grounding DINO 的性能极大提升,并且从多个维度包括 OOD、REC、Phrase Grounding、OVD 和 Finetune 等方面进行评测,充分挖掘 Grounding 预训练优缺点,希望能为后续工作提供启发。


技术报告:

https://arxiv.org/abs/2401.02361


项目地址:

https://github.com/open-mmlab/mmdetection/tree/main/configs/mm_grounding_dino



RTMO & RTMW:

多类场景人体姿态估计新 SOTA


在人体姿态估计方向,MMPose 带来了 2 项重量级算法更新:


单阶段实时姿态估计算法 RTMO:结合了坐标回归策略与 YOLOX 检测框架,克服了现有单阶段人体姿态估计模型难以同时兼顾精度与速度的困难。RTMO 具有以下优势:


  • 在密集的多人场景中精度领先,在 CrowdPose 和 OCHuman 数据集上取得最佳精度

  • RTMO-L 模型推理速度达到140+ FPS(GPU),且不受画面中人数影响,在人群密集场景中优势明显

  • 作为端到端的单阶段模型,无需额外的人体检测器,使用流程简单方便


RTMO 模型效果展示


新版全身 133 点姿态估计模型 RTMW:在上一版本基础上引入了 DWPose 蒸馏方案,以更小的参数量达到 COCO-Wholebody SOTA 精度;同时对手部关键点精度做了专门优化,非常适合应用于人机交互、可控图像视频生成等场景。


RTMW 模型效果展示


PowerPaint:

第一个高质量的通用图像补全模型


作为第一个高质量通用图像补全模型,PowerPaint 在一个模型中同时支持增加物体、删除物体、AI 扩图等多种不同的图像补全功能。在 PhotoShop Generative Fill 功能中能体验到的,PowerPaint 都支持,而且免费开源。同时,PowerPaint 兼容 ControlNet 生态,可搭配使用。


项目地址:

https://github.com/open-mmlab/mmagic/tree/main/projects/powerpaint


在线 demo:

https://openxlab.org.cn/apps/detail/rangoliu/PowerPaint



PIA: 私人动画师, 让你的图像动起来!


PIA 通过训练可插拔的条件编码模块,能有效结合帧间相似性信息,生成忠于给定条件帧和文本提示词的视频结果。目前 PIA 支持 1024x1024 的图像到视频的生成,只需要 16G 显存。


项目地址:

https://github.com/open-mmlab/PIA

在线 demo(快来找假期彩蛋):

https://openxlab.org.cn/apps/detail/zhangyiming/PiaPia



02

算法库重要更新


MMEngine


MMEngine 新版本提供了更全面的大模型训练支持,以及多项易用性提升:


  • 支持大模型训练框架 ColossalAI 以及 activation checkpointing 策略

  • 支持三个可视化框架,Neptune,DVCLive 和 Aim

  • 发布 mmengine-lite 包,精简第三方库依赖


MMDetection


MMDetection 新版本带来了多项重要的算法更新:


  • 全新开源 MM-Grounding DINO,通过探索不同数据组合和初始化策略实现了性能的大幅提升,同时提供了从数据到评测的完整开源流程

  • 新增了 RTMDet-L 的 Swin-B 和 ConvNeXt-B 骨干网络 (@okotaku)

  • GLIP 支持了 ODinW 和 Phrase Grounding 等的评测


MMPose


MMPose 新版本更新了自研算法 RTMO/RTMW,同时包括多项新算法和数据集支持:


  • 开源 RTMO,在多人姿态估计任务上达到 SOTA 性能的实时单阶段姿态估计模型

  • RTMW 新增了 RTMW-m, RTMW-l 等多个尺寸的模型,满足不同应用场景

  • 支持了 PoseAnything 的推理,实现开放姿态检测

  • 支持了暗光人体姿态数据集 ExLPose、3D 全身关键点数据集 H3WB


MMDetection3D


MMDetection3D 新版本带来了多项重要更新:


  • 重构 Waymo 数据集,支持 单目/BEV 3D 目标检测, 加速数据集预处理、启动、验证时间。发布新版本 Waymo-mini,帮助社区快速上手 Waymo 与模型调试

  • 在 Waymo 数据集上,支持了 multi-view FCOS3D++ (BEV) / PGD (单目) 等基于图像的 3D 目标检测任务

  • 支持了 DSVT ,是目前 LiDAR-based 在 Waymo 数据集上的 SOTA 模型

  • 支持了 Nerf-Det, 将 Nerf 用于辅助检测模型的室内场景 3D 目标检测模型


MMPreTrain


MMPretrain 新版本支持了 LLaVA 1.5 多模态模型。




MMDeploy


MMDeploy 新特性包括:


  • 支持 RTMO 系列关键点检测模型的部署

  • 支持 CondInst 实例分割模型的部署



03

社区组织与活动回顾


前沿学术交流


围绕大模型、多模态等主题,第三季度我们开展了 12 场学术直播活动,17000+ 开发者通过社区开放麦直播的方式观看并参与互动,其中微软高级研究员杨征元分享的多模态 Agents、观远数据联合创始人周远分享的 LLM Agent 以及 AI4Finance-Foundation 开源社区创始人杨宏阳带来的金融垂类大模型 FinGPT 是 Q4 最受欢迎的三个分享,错过直播的开发者可以在 OpenMMLab B 站上搜索回放视频 ~


OpenMMLab B 站主页:

https://space.bilibili.com/1293512903?spm_id_from=333.1007.0.0


1024 贡献者主题活动


为了庆祝 10.24 程序员节的到来,OpenMMLab 社区举特别办 1024 贡献者加速月活动,上线了全新的技术写作类任务以及全新的兑换奖池。在一个月紧张的开发周期中,有 20 个同学共计完成了 24 个社区任务,所有完成任务的同学都获得了双倍积分好礼以及全新定制的 OpenMMLab 卫衣。



OpenMMLab 技术写作训练营


OpenMMLab 技术写作训练营第 3 期成功举办,共有 100+ 社区成员报名参与了此次训练营。专业老师提供全方位系统性教学,再度献上了一场技术写作盛宴,学员们围绕着 AI、大模型、计算机视觉、学习、职场等众多主题展开写作实践,参与者纷纷表示“收获颇丰”,更有佳作在 OpenMMLab 官方渠道亮相,受到读者们的喜爱!


最后,感谢社区小伙伴们一直以来的支持和关注,OpenMMLab 的成长和发展,离不开每一个小伙伴的支持和贡献,谢谢大家!


实时推理+SOTA精度!RTMO引领MMPose姿态估计新高度

2024-01-04

霉霉演唱《稻香》,港中大(深圳)联袂OpenMMLab剑指音频生成!

2023-12-20

书生·浦语大模型实战营——两周带你玩转微调部署评测全链路

2023-12-25

击下方“阅读原文”直达 OpenMMLab 项目主页

继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存