1.什么是图像分割

1.1图像分割的含义以及基本发展

图像分割一般定义为将图像划分为同质组的过程,使每个区域都是同质的,但相邻区域的并集不是同质的。因此图像分割主要是确定合适的同质性措施,来区分对象彼此。

法一:图像驱动方法:基于图像像素的统计特征提取目标,大部分基于边缘分割技术

法二:模型驱动方法:通常用于图像分割的模型有a)目标背景/阈值模型,b)神经模型,c)马尔可夫随机场模型,d)模糊模型,e)分形模型,f)多分辨率和g)变换模型,即分水岭模型和小波模型。

对象背景模型:目前,基于阈值的方法在遥感领域,特别是在高分辨率影像的城市遥感应用中并不流行。

马尔可夫随机场模型(MRF):它能够以先验分布的形式整合图像的光谱、纹理、上下文、空间属性,甚至先验知识。然而,数学公式和高计算复杂度是缺点。

模糊模型:

2.什么是遥感语义分割?

2.1 什么是语义分割(Semantic segmentation )?

​ 语义分割是在像素级别上的分类,属于同一类的像素都会被归于一类。因此语义分割是从像素级别来理解图像的。比如一张人骑摩托车的照片,属于人的像素都要分成一类,属于摩托车的像素也要分成一类,除此之外还有背景像素也被分为一类。注意语义分割不同于实例分割,举例来说,如果一张照片中有多个人,对于语义分割来说,只要将所由人的像素都归为一类,但是实例分割还要将不同人的像素归为不同的类。也就是说实例分割比语义分割更进一步。

2.2 语义分割的基本方法

​ 语义分割有多种传统方法,但现在更多会使用深度学习方法来进行语义分割。比较常见的深度学习算法有:

Patch classification

Patch classification方法,顾名思义,图像是切成块喂给深度模型的,然后对像素进行分类。使用图像块的主要原因是因为全连接层需要固定大小的图像。

全卷积方法

2014年,全卷积网络横空出世,将网络全连接层用卷积取代,因此使任意图像大小的输入都变成可能,而且速度比Patch classification方法快很多。

encoder-decoder架构

encoder-decoder是基于FCN的架构。encoder由于pooling逐渐减少空间维度,而decoder逐渐恢复空间维度和细节信息。通常从encoder到decoder还有shortcut connection(捷径连接,也就是跨层连接)。

还有更多基于FCN的衍生方法将在后面详解。

###