荟聚NeurIPS顶会模型、智能标注10倍速神器、人像分割SOTA方案、3D医疗影像分割利器，PaddleSeg重磅升级！

将AI进行到底的百度AI 2023-03-16

【导读】

图像分割是计算机视觉三大任务之一，基于深度学习的图像分割技术也发挥日益重要的作用，广泛应用于智慧医疗、工业质检、自动驾驶、遥感、智能办公等行业。

然而在实际业务中，图像分割依旧面临诸多挑战，比如：分割数据标注效率较低，标注过程自动化程度低；垂类场景多样，打造全流程方案的难度大；针对 3D 分割的方案较少。

针对以上挑战，飞桨图像分割开源套件 PaddleSeg 近期升级，主要包括：

开源 NeurIPS 2022顶会发表的语义分割官方实现模型 RTFormer，结合 CNN 和 Transformer 的优点，该模型设计并使用了高效的 RTFormer Block。对比其他实时语义分割模型，RTFormer 在多个数据集上实现 SOTA 精度和速度。（后续会有单独文章详细解读）
针对标注数据的难题，发布智能标注平台 EISeg 正式版，支持医疗、遥感、工业质检等领域的分割标注，新增视频分割标注，分割标注效率提升超过10倍。
针对人像分割场景，发布实时人像分割 SOTA 方案 PP-HumanSegV2，推理速度提升87.15%，分割精度达到96.63%，可视化效果更佳，可与商业收费方案媲美。
针对 3D 医疗分割场景，发布 3D 医疗影像分割方案 MedicalSegV2，支持 3D 交互式标注，实现高精度、定制化、全流程。

注：了解更多详情，可至文末加入 PaddleSeg 技术交流群

⭐️感谢大家 star 关注⭐️

https://github.com/PaddlePaddle/PaddleSeg

技术升级详细解析

>> 第一部分

EISeg 正式版标注效率提升超过10倍

▎通用场景的智能标注

EISeg 基于深度学习模型，能够结合用户提供的标注信息灵活选择用户感兴趣的区域。在 EISeg 中，用户通过点击正点或负点来选择需要被分割的目标，不需要再对目标周围进行点击和拉线。它能减少用户交互的次数，提升标注效率。

▎医疗、遥感垂类场景的智能标注

EISeg 针对特定数据集进行训练并获得了高质量的交互式分割模型，目前覆盖的场景包括: 医疗腹腔多器官、椎骨分割、产品瑕疵分割、遥感建筑物分割等。同时，针对不同场景的标注需求，EISeg 提供了相应的特色标注能力，比如遥感图像支持遥感信息的读取，医疗图像支持窗宽窗位的选择等，从而拓展了交互式分割的应用领域。

▎业界领先的内置分割模型

目前 EISeg 提供的各类模型能够达到业界的领先水平，EISeg 通用模型精度和速度如下表所示：

▎支持视频智能标注

EISeg 正式版视频标注工具以交互式分割算法及交互式视频分割算法 MiVOS 为基础，涵盖了通用、腹腔多器官，CT 椎骨等不同方向的高质量交互式视频分割模型，方便开发者快速实现视频的分割标注。

▎支持多种图像及标注格式

EISeg 正式版支持多种标注格式生成，同时支持导出伪彩色图、灰度图，以及 JSON、COCO 等数据格式，总有一款能满足你的需求。

▎助力多家标注平台落地

PaddleSeg 提供的智能标注能力现已落地百度大脑 EasyData 智能数据服务平台，百度智能云数据众包、标贝数据、中国空天院、国家农业智能装备工程技术研究中心等厂内外数十家公司，助力企业提升标注效率，降低标注成本。

■ EISeg 传送门

https://github.com/PaddlePaddle/PaddleSeg/tree/release/2.6/EISeg

>> 第二部分

PP-HumanSegV2 人像分割 SOTA 方案，精度96.63%、速度63FPS

在视频通话和观看直播时，背景虚化、弹幕穿人等神奇的功能，给我们带来了更优质的体验和多维的乐趣。那这是靠什么 AI 黑科技实现的呢？答案就是人像分割。人像分割是将人物和背景在像素级别进行区分。目前人像分割技术得到快速突破，但是高精度、高性能、全流程的方案，仍是业界高手持续发力优化的地方。

PaddleSeg 重磅升级的 PP-HumanSegV2人像分割方案，以96.63%的 mIoU 精度， 63FPS 的手机端推理速度，再次刷新开源人像分割算法 SOTA 指标。相比 PP-HumanSegV1方案，推理速度提升87.15%，分割精度提升3.03%，可视化效果更佳。支持零成本、开箱即用！

PP-HumanSegV2方案核心点在以下三方面：

▎开源 PP-HumanSeg14K 人像分割数据集

常见的人像分割公开数据集有 EG1800和 Supervise-Portrait，数据量分别是1.8k和3k，而且都是针对通用场景。PP-HumanSegV2方案重点关注视频会议和远程通话场景，面临场景变化多样、可用数据量过少的难点。因此，我们针对视频会议和远程通话场景，构建并开源了最大的视频会议人像分割数据集 PP-HumanSeg14K。

该数据集充分考虑了场景多样性，采集的图片涵盖了背景光照、人物动作、人物个数、戴口罩等诸多变化因素。总共收集了将近14000张图片进行高精标注，划分为训练集9000张、验证集2500张、测试集2500张。

同时 PaddleSeg 团队将 PP-HumanSeg14K 数据集论文发表在 WACV 2022 Workshop 上，让更多学者可以看到并申请使用该数据集。截至目前，PP-HumanSeg14K 已经广泛助力人像分割的研究，涵盖60+高校、20+机构、30+公司。

■ PP-HumanSeg14K 数据集传送门

https://github.com/PaddlePaddle/PaddleSeg/blob/release/2.6/contrib/PP-HumanSeg/paper.md

采集的图片

标注的图片

▎升级实时高精度人像分割 SOTA 模型

此前的实时人像分割模型，无法实现精度和速度的完美平衡，所以我们基于 PaddleSeg 近期发布的超轻量级系列 MobileSeg 模型，根据方案目标，设计新的实时人像分割 SOTA 模型模型。（结构如下图所示）

实时人像分割 SOTA 模型

对于模型 Encoder 部分，考虑到模型的算量要求很高，我们选用 MobileNetV3作为骨干网络提取多层特征。分析发现 MobileNetV3的参数主要集中在最后一个 Stage，在不影响分割精度的前提下，我们只保留 MobileNetV3的前四个 Stage，成功减少了68.6%的参数量。对于上下文部分，我们使用 PP-LiteSeg 模型中提出的轻量级 SPPM 模块，而且其中的普通卷积都替换为可分离卷积，进一步减小计算量。SPPM 模块输入16倍下采样特征图，输出汇集全局上下文信息的特征图。对于 Decoder 部分，我们设计三个 Fusion 融合模块，多次融合深层语义特征和浅层细节特征，最后一个 Fusion 融合模块再次汇集不同层次的特征图，输出分割结果。

▎三个关键优化策略升级

除了数据和模型方面的工作，我们还分析实际场景，提出了三种优化策略，实现最好的精度、速度和可视化效果：

■ 使用两阶段训练方式，提升分割精度

两阶段训练是基于迁移学习的思想，首先在大规模混合人像数据集（数据量100k+）上训练，然后使用该预训练权重，在 PP-HumanSeg14K 数据集（数据量14k）上训练，最终得到训练好的模型。使用两阶段训练方式，可以充分利用其他数据集，提高模型的分割精度和泛化能力。

■ 调整图像分辨率，提升推理速度

调整图像分辨率也直接影响模型的推理速度，我们使用多种图像分辨率进行训练和测试，在 PP-HumanSegV2方案中选择最佳图像分辨率，进一步提升了模型推理速度。

■ 使用形态学后处理，提升可视化效果

首先获取原始预测图像 I，然后使用阈值处理、图像腐蚀、图像膨胀等操作得到掩码图像 M，最后预测图像 I 和掩码图像 M 相乘，输出最终预测图像 O。下图直观展示了形态学后处理可以滤除背景干扰，提升可视化效果。

形态学后处理的图像

■ 传送门

https://github.com/PaddlePaddle/PaddleSeg/tree/release/2.6/contrib/PP-HumanSeg

>> 第三部分

MedicalSegV2：高精度定制化 3D 医疗分割方案

3D 医疗影像分割通过学习 3D 医疗影像数据（CT、MRI）和特定标签的映射关系，获取 3D 的特定感兴趣器官、组织的立体分割结果。进一步结合 3D 打印、数据分析、可视化等技术，就可以帮助医生对患者的病情进行高效诊断、手术规划、疾病研究等重要工作。

多层 2D 椎骨数据通过 3D 分割

获得 3D 立体分割结果

▎基于自研模型的 3D 智能标注平台 EISeg-Med3D

医疗影像分割中的一个源头性问题为数据标注极为困难，专业医生需要通过极为繁杂的标注流程、多重质量保证机制来生成大量、准确标注结果。为了缓解这个问题。PaddleSeg 团队创新性地将 3D 网络应用于交互式分割流程中，并实现100%3D 数据流，形成了基于 3D 交互式分割的智能标注平台 EISeg-Med3D。

EISeg-Med3D 基于 3D Slicer 搭建，具有高效、高精度、用户友好三大特点：只要一次点击1s 生成 3D 标注结果，相比 2D 标注实现十倍提速；两次点击就可达到85% 精度，结合搭载的机器学习图像算法、手工微调工具，实现100%高精度标注；拥有标注进度管理、三步轻松安装、历史标注结果自动导入等用户友好设计。

▎极大丰富的高精度多器官前沿模型

从 v1到 v2，MedicalSeg 的内置分割算法从单个 VNet 丰富到6个 SOTA 算法，扩充的模型数量提供了更为先进高效的分割性能，覆盖了18种各类器官组织。如下表所示，复现的模型对比原始算法精度均有不同精度的提升，其中 TransUNet 相比原始算法精度提升了3.6。

▎定制化医疗分割方案 nnUNet

有过医疗分割经验的开发者一定听过 nnUNet，作为各大比赛的打榜方案，其支持数据定制化下的高精度分割。而看过其代码的开发者也会发现其代码的晦涩难懂。为了支持大家更加灵活使用 nnUNet的需要，我们基于飞桨对其进行了模块化、清晰化的复现；同时还新增了在静态图预测时匹配多种模型、多折模型的部署方案，达到同一张图像可使用多折静态模型部署的效果，从而大大提升了其产业实用性。

MedicalSeg v2传送门

https://github.com/PaddlePaddle/PaddleSeg/tree/develop/contrib/MedicalSeg

加入 PaddleSeg 技术交流群

▎入群福利

获取 PaddleSeg 详解本次升级内容的直播课链接
获取 PaddleSeg 团队整理的 5G 重磅学习大礼包，包括：

1. PaddleSeg 历次发版直播课视频

2. 社区优秀开发者项目分享视频

▎入群方式

PaddleSeg 技术分享直播课

▎相关地址

官网地址

https://www.paddlepaddle.org.cn

PaddleSeg项目地址（GitHub）

https://github.com/PaddlePaddle/PaddleSeg

Gitee

https://gitee.com/paddlepaddle/Paddleseg

法明传[2024]173号：1月1日起，未用示范文本提交起诉状，部分法院将不予立案

法明传[2024]173号：1月1日起，未用示范文本提交起诉状，部分法院将不予立案

2025.1.1起，全国法院全面推进应用民事起诉状、答辩状示范文本(附下载链接)

法明传[2024]173号：关于加快推进起诉状、答辩状示范文本全面应用工作的通知(附下载链接)

2025.1.1起，全国法院全面推进应用民事起诉状、答辩状示范文本(附下载链接)

荟聚NeurIPS顶会模型、智能标注10倍速神器、人像分割SOTA方案、3D医疗影像分割利器，PaddleSeg重磅升级！

【导读】

您可能也对以下帖子感兴趣

法明传[2024]173号：1月1日起，未用示范文本提交起诉状，部分法院将不予立案

法明传[2024]173号：1月1日起，未用示范文本提交起诉状，部分法院将不予立案

2025.1.1起，全国法院全面推进应用民事起诉状、答辩状示范文本(附下载链接)

法明传[2024]173号：关于加快推进起诉状、答辩状示范文本全面应用工作的通知(附下载链接)

2025.1.1起，全国法院全面推进应用民事起诉状、答辩状示范文本(附下载链接)

生成图片，分享到微信朋友圈

荟聚NeurIPS顶会模型、智能标注10倍速神器、人像分割SOTA方案、3D医疗影像分割利器，PaddleSeg重磅升级！

【导读】

您可能也对以下帖子感兴趣