【强基固本】走进基于深度学习的图像分割

人工智能前沿讲习 2022-05-20

收录于合集 #强基固本 111个

“强基固本，行稳致远”，科学研究离不开理论基础，人工智能学科更是需要数学、物理、神经科学等基础学科提供有力支撑，为了紧扣时代脉搏，我们推出“强基固本”专栏，讲解AI领域的基础知识，为你的科研学习提供助力，夯实理论基础，提升原始创新能力，敬请关注。

本文分享自华为云社区《【图像分割】走进基于深度学习的图像分割》，原文作者：AI浩

地址：https://bbs.huaweicloud.com/blogs/330257

深度学习中的图像分割

图像分割就是把图像分成若干个特定的、具有独特性质的区域并提出感兴趣目标的技术和过程。它是由图像处理到图像分析的关键步骤。现有的图像分割方法主要分以下几类：基于阈值的分割方法、基于区域的分割方法、基于边缘的分割方法以及基于特定理论的分割方法等。从数学角度来看，图像分割是将数字图像划分成互不相交的区域的过程。图像分割的过程也是一个标记过程，即把属于同一区域的像素赋予相同的编号。基于深度学习的图像分割算法主要分为两类：

1. 语义分割

为图像中的每个像素分配一个类别，如把画面中的所有物体都指出它们各自的类别。

2. 实例分割

与语义分割不同，实例分割只对特定物体进行类别分配，这一点与目标检测有点相似，但目标检测输出的是边界框和类别，而实例分割输出的是掩膜（mask）和类别。

应用领域

1. 医学影像。

包括:

（1）肿瘤和其他病理的定位

（2）组织体积的测量

（3）计算机引导的手术

（4）诊断

（5）治疗方案的定制

（6）解剖学结构的研究

2. 在卫星图像中定位物体

（1）建筑物变化检测

（2）农作物、森林、土地等面积的计算

（3）道路提取

（4）建筑物分割

3. 无人驾驶领域

4. 人脸检测和识别、指纹检测、虹膜识别等。

深度学习中的图像分割模型

FCN

U-Net：

SegNet

RefineNet

PSPNet

DeepLabv1

DeepLabv2

DeepLabv3

DeepLabv3+

Mask-R-CNN

Transformer

深度学习常用数据集

Pascal VOC

地址链接：http://host.robots.ox.ac.uk/pascal/VOC/

VOC 数据集分为20类，包括背景为21类，分别如下：

• Person: person

• Animal: bird, cat, cow, dog, horse, sheep

• Vehicle: aeroplane, bicycle, boat, bus, car, motorbike, train

• Indoor: bottle, chair, dining table, potted plant, sofa, tv/monitor

VOC 数据集中用于分割比赛的图片实例如下，包含原图以及图像分类分割和图像物体分割两种图（PNG格式）。图像分类分割是在20种物体中，ground-turth图片上每个物体的轮廓填充都有一个特定的颜色，一共20种颜色。

MS COCO

地址链接：https://cocodataset.org/#home

MS COCO 是最大图像分割数据集，提供的类别有 80 类，有超过 33 万张图片，其中 20 万张有标注，整个数据集中个体的数目超过 150 万个。MS COCO是目前难度最大，挑战最高的图像分割数据集。

Cityscapes

地址链接：https://www.cityscapes-dataset.com/

Cityscapes 是驾驶领域进行效果和性能测试的图像分割数据集，它包含了5000张精细标注的图像和20000张粗略标注的图像，这些图像包含50个城市的不同场景、不同背景、不同街景，以及30类涵盖地面、建筑、交通标志、自然、天空、人和车辆等的物体标注。Cityscapes评测集有两项任务：像素级（Pixel-level）图像场景分割（以下简称语义分割）与实例级（Instance-level）图像场景分割（以下简称实例分割）。

ADE20K

官网：http://groups.csail.mit.edu/vision/datasets/ADE20K/

整个数据集（包含所有的图像和分割在内）的大小为 3.8Gb，训练集20210张图片，验证集200张，场景比较丰富包括：室内，室外，自然场景等。单张场景的类别也较多，共150个类别。

常用的损失函数

1. Binary Cross Entropy

2. Weighted Cross Entropy

3. Balanced Cross Entropy

4. Dice Loss

5. Focal loss

6. Tversky loss

7. Focal Tversky loss

8. log-cosh dice loss

推荐一个好用的图像分割库

segmentation_models_pytorch是一个基于PyTorch的图像分割神经网络

这个新集合由俄罗斯的程序员小哥Pavel Yakubovskiy一手打造。
github地址：https://github.com/qubvel/segmentation_models.pytorch

使用方法：

https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/116245088

本文目的在于学术交流，并不代表本公众号赞同其观点或对其内容真实性负责，版权归原作者所有，如有侵权请告知删除。

“强基固本”历史文章

请点击文章底部“阅读原文”查看

分享、点赞、在看，给个三连击呗！

从来就不缺傻子！

女高管与男下属上班约会开房，男方妻子闹到单位！被开除后她辩称：一直保持0.46-1.22米“个人距离”

错过这轮牛市，等于2000年错过楼市！

突然大瓜：JJ一哥被举报！

中国人民大学最新报告：相信遥遥领先的人，多数处在社会底层

【强基固本】走进基于深度学习的图像分割

3D点云的旋转不变卷积

t-SNE使用过程中的一些坑

关于旋转框定义的一些理解和感想

误区! Adam+L2并不能发挥效果!

100行用Python实现自动求导（不import任何包的情况下）

从三角函数变换到图神经网络

点云局部特征描述子 SHOT

直观理解万能近似定理(Universal Approximation theorem)

Kmeans 聚类算法

聚类性能评估-V-Measure

完全图解RNN、RNN变体、Seq2Seq、Attention机制

脉冲神经网络（Spiking Neural Network）介绍

流形学习概述

神经网络15分钟入门！——反向传播到底是怎么传播的？

更多强基固本专栏文章，

请点击文章底部“阅读原文”查看

您可能也对以下帖子感兴趣

从来就不缺傻子！

女高管与男下属上班约会开房，男方妻子闹到单位！被开除后她辩称：一直保持0.46-1.22米“个人距离”

错过这轮牛市，等于2000年错过楼市！

突然大瓜：JJ一哥被举报！

中国人民大学最新报告：相信遥遥领先的人，多数处在社会底层

生成图片，分享到微信朋友圈

【强基固本】走进基于深度学习的图像分割

更多强基固本专栏文章，

请点击文章底部“阅读原文”查看

您可能也对以下帖子感兴趣