An Improved Res-UNet Model for Tree Species Classification Using Airborne High-Resolution Images论文理解

    该部分内容仅为自己学习所用,仅代表个人理解。

     该论文是北京林业大学林学院张晓丽教授团队在树种分类深度学习模型上取得重要进展。张晓丽教授是北京林业大学林学院地图学与地理信息系统学科教授,研究方向主要为林业遥感与信息化、资源监测与信息化管理、地理信息技术集成与应用。联系方式为: 邮箱:zhangxl@bjfu.edu.cn; 电话: +86-010-62336227 (XL.Z.)

     作者提出了一种基于深度学习的树分类方法。该方法将语义分割网络U-Net和特征提取网络ResNet组合成一个改进的Res-UNet网络,改进点为(1)U-Net网络的卷积层由ResNet的残差单元表示,(2)使用线性插值代替每个上采样层中的反卷积,(3)在网络的输出中,使用条件随机场(CRF)进行后处理以优化树种分割图的方法。并通过充分的对比实验验证了改进点对实验结果的优良影响。作者其它贡献还包括制作了一批树种数据集,但还未公开。

   以下部分为文章翻译。

      An Improved Res-UNet Model for Tree Species Classification Using Airborne High-Resolution Images

                                  使用机载高分辨率图像的树种分类的改进Res-UNet模型

摘要:树种分类对森林资源的管理和可持续发展具有重要意义。传统的面向对象的树种分类方法(例如支持向量机)需要手动选择特征并且通常精度较低,而深度学习技术可以自动提取图像特征以实现端到端分类。因此,本研究提出了一种基于深度学习的树分类方法。该方法将语义分割网络U-Net和特征提取网络ResNet组合成一个改进的Res-UNet网络,其中U-Net网络的卷积层由ResNet的残差单元表示,并且使用线性插值代替每个上采样层中的反卷积。在网络的输出中,条件随机字段用于后处理。该网络模型用于对中国广西南宁高丰林场的航空正射影像进行分类实验。然后将结果与U-Net和ResNet网络的结果进行比较。 所提出的方法具有更高的分类精度,总分类精度为87%。因此,该模型可以有效地实现林木树种的分类,为我国南方林木树种的分类提供新的机会。

关键词:树种分类;  Res-UNet; 正射影像;条件随机场

1.简介

        树种分类对于可持续森林管理和生态环境保护具有重要意义[1]。高空间分辨率的遥感图像由于具有更好的空间特征,因此优选用于详细的树分类。

      近年来,高分图像分类方法取得了重大进展,这些方法通常以基于像素的分类[2-4]或面向对象的分类[5-8]为特征。基于像素的分类方法使用像素作为分类单位。他们主要考虑像素的波段光谱强度信息,而忽略空间结构关系和上下文语义信息[9]。对于带宽较小的高分辨率遥感影像,基于像素的方法将导致空间数据的大量冗余,从而产生“盐和胡椒”效果。许多学者将人工特征提取与传统的面向对象方法相结合来进行树种分类。 Immitzer等[10]使用树冠的人工划定的阳光照射区域的光谱进行了随机森林分类(基于对象和基于像素),对10种树种进行分类的总体准确性约为82%。Li等[11]探索了Bittemporal WorldView-2和WorldView-3图像的潜力,使用基于对象的支持向量机和随机森林方法确定五种主要的城市树种。Ke等[9]使用三种分割方案,以基于对象的方法评估高空间分辨率多光谱图像和低张贴密度LiDAR数据在森林物种分类中的协同使用,并且协同使用改善了森林分类。但是,这些方法需要手动选择特征,这是主观的,因此使高质量特征的提取变得复杂[12-14]。随着深度学习的发展[15],越来越多的研究人员正在使用神经网络自动提取特征,从而消除了手动选择特征的需求[16-18]

    自2006年Hinton提出[19]以来,深度学习理论已在场景识别,物体检测和遥感图像分类中取得了重大进展[20-25]。最有代表性的体系结构是卷积神经网络(CNN),它是一个多层神经网络,其设计源自对子区域的概念以及对哺乳动物视皮层的研究揭示的层次分析[26]。 可以从特征图获得深层,例如纹理,边界和拓扑结构,从而在ImageNet和PASCAL VOC(模式分析,统计建模和计算学习视觉对象类)数据集的分类任务中获得较高的分类评分[27]。He等[28]提出了一种结合显着性和多层CNN的方法来对UC Merced 21和武汉7的两个高分图像场景数据集进行分类。Zhang 等人[29]将CNN的多个完全连接的层堆叠在一起,以提取多尺度卷积特征并在高分图像中执行飞机目标检测。此外,汗等[30]通过改进的CNN网络解决了针对高分图像的多标签场景分类问题。在树种分类领域,使用改进的CNN进行树种分类变得很普遍。Sun等[31]修改了三种不同的深度学习方法(即AlexNet,VGG16和ResNet50)以对树种进行分类,因为它们可以充分利用空间上下文信息,并且VGG16具有最佳性能,18种树的总体准确性为73.25%。哈特林等[32]使用密集卷积网络(DenseNet)进行树种分类,并使用具有高空间分辨率多光谱图像和LiDAR数据集的数据融合方法,研究了其在高度复杂的城市环境中对优势树种进行分类的能力。

      通常,CNN网络将在卷积层之后连接几个完全连接的层,并将由卷积层生成的特征图映射到固定长度的特征向量[33]。通用的CNN结构适用于图像级别的分类和回归任务,因为它希望最终对输入图像进行分类。但是,遥感图像树分类的期望输出是与输入图像大小相同的分类图。为了解决这个问题,Long等[34]在2015年提出了全卷积网络(FCN),并解释了其在语义分割中的应用。Ronneberger等[35]改进了FCN并提出了U-Net网络。许多后续的分类研究都基于FCN网络的思想。方等[36]将FCN应用于高分辨率遥感影像的分类;他们的结果表明,FCN可以更好地获取图像中地面特征的基本特征。此外,均值漂移分割算法可用于优化获得的概率图结果的边缘并提高分类精度。Fu等[37]提出了一种基于改进的FCN模型的高分辨率遥感影像的准确分类方法。平均精度,查全率和Kappa系数分别为0.81、0.78和0.83。Flood 等[38]手动标记3波段Earth-i影像中是否有树木或大灌木,并使用U-net神经网络架构来绘制澳大利亚昆士兰州树木或大灌木的存在与否。

       但是,在对遥感图像中的树种进行分类时,FCN不考虑像素之间的空间关系。此外,它缺乏空间一致性,无法提取更多有用的空间和光谱特征[34]。所获得的树种结果不够准确,图像的空间细节分辨率较低。因此,对于复杂的特征信息,分类任务的准确性并不令人满意。U-Net网络可以将通过下采样获得的基础空间特征与通过跳跃连接输入的上采样相结合以提高其获取树边缘信息的能力。但是,梯度下降通常在网络加深过程中发生。ResNet网络具有独特的残差单元,可以避免在网络加深过程中梯度下降[39]。将其引入U-Net网络已成为当前的研究热点。一些学者在单目标提取和城市土地分类领域进行了相关研究。Chu等[40]提出了一种基于U-Net的方法,该方法使用ResNet代替了收缩部分进行海域分割。徐等[41]设计了一种基于深度残差网络的图像分割神经网络,并使用导引滤波器在遥感影像中更有效地提取建筑物。张等[42]提出了新颖的多尺度深度学习模型,即ASPP-UNet和ResASPPUNet用于基于超高分辨率卫星图像的城市土地覆盖分类,而ResASPP-UNet产生了最高的分类精度。

但是,以前的研究主要是通过结合U-Net和ResNet进行简单的二进制分类,并且网络结构相对简单。其他研究主要针对城市土地利用分类问题,因此对复杂森林类型的树种进行分类的能力尚不清楚。树种之间的光谱特性差异很小的问题给树种分类带来了挑战。因此,本研究的主要目标包括:结合U-Net和ResNet并提出适合于树种分类的Res-UNet网络。将U-Net的卷积层替换为ResNet的基本单元,该单元用于提取多尺度空间特征并同时解决越来越多的网络层的深层网络的梯度下降问题。在网络的输出端,提出了使用条件随机场(CRF)进行后处理以优化树种分割图的方法。使用Res-UNet网络评估机载CCD(电荷耦合器件)图像识别南部复杂林木物种的能力;并分析影响模型分类能力的参

2.材料和方法

2.1.研究领域

     研究区域位于中国南方广西省南宁市广西高丰国有林场的界牌林场。 如图1所示,它位于东经108°31'和北纬22°58'。年平均气温约为21℃,年平均降雨量为1304.2毫米,红土层较深,适合热带和亚热带树木的生长[43]。 研究区的森林覆盖率主要由人工林,桉树(Eucalyptus robusta Smith),八角茴香(Illicium verum Hook.f.),湿地松树(Pinus elliottii Engelm.),马尾松(Pinus massoniana Lamb.), 杉木(Cunninghamia lanceolata (Lamb.) Hook.)和其他阔叶树类型。 其中,大面积种植桉树(Eucalyptus robusta Smith)和杉木(Cunninghamia lanceolata (Lamb.),具有一定的分类优势。 一些阔叶树种的种植面积较小,因此被归类为其他阔叶树。 研究区域中还存在一些道路。 分类系统如表1所示。

                                    An Improved Res-UNet Model for Tree Species Classification Using Airborne High-Resolution Images论文理解_第1张图片

图1.高丰林场边界的地理位置(左上),界牌场和研究区的CCD正像(左下),高空区的CCD正像(右上),研究区的CCD正像(右下)

                                                              表1.研究区域的分类系统(图1(右下))。

                                 An Improved Res-UNet Model for Tree Species Classification Using Airborne High-Resolution Images论文理解_第2张图片

2.2.遥感图像数据的采集与预处理

      空中飞行于2018年1月13日和2018年1月30日进行。空中摄影区域为东经108°7′至108°38′,北纬22°49′至23°5′,测量约125 km 2。具体区域如图1所示。实际飞行高度约为1000 m,数据采集当天的天气晴朗无云。中国林业科学研究院的机载LiCHy(LiDAR,CCD和高光谱)系统配备了航拍数码相机以获取CCD图像[44]。它还配备了LiDAR扫描仪和用于LiDAR数据,高光谱数据,惯性测量单元(IMU)和GPS数据的高光谱传感器。航空数码相机具有6000万像素,镜头焦距为50 mm,图像空间分辨率为0.2 m,包括红色,绿色和蓝色三个波段。

 

2.3 地面勘测数据和其他辅助数据

      地面数据调查于2018年1月16日至2018年2月5日在高丰林场进行。首先,对GF-2数据进行视觉解释,以确定分类区域的位置。然后在分类区域进行了实地调查,以了解树木的分布和特征。此外,广西森林科学院提供的整个林场的矢量地图被用来帮助制作训练样本的标签。

2.4数据集制作

          本研究中使用的数据集是从整个空中区域的整个图像中裁剪而成的(如图1(右上图)所示)。 训练数据包括1000个图像,像素大小为1024×1024,包括分类系统中的所有类别。 测试数据大小为5334×4951像素图像,训练数据和测试数据彼此独立。 根据林场矢量数据,视觉解释和现场调查,将树种类别标记为标签。为了在训练过程中满足所需的样本数量,对训练数据执行了诸如平移和旋转之类的数据增强操作,以形成总共2000张图像,并将其作为训练集发送到神经网络。为了增强网络的鲁棒性,使用分层抽样方法将训练集分为训练数据(80%)和验证数据(20%)。表2中显示了每个类别中的训练样本和验证样本的数量。此外,本研究使用40%,60%,80%和100%的训练集进行训练,以探索最适合的训练样本数,训练样本。

                                            表2.数据扩充后每种树种类别的训练和验证样本数。

                             An Improved Res-UNet Model for Tree Species Classification Using Airborne High-Resolution Images论文理解_第3张图片

 

2.5 工作流程说明

       在这项研究中,使用改进的U-Net网络对树种的高分辨率图像进行分类。网络的卷积层由ResNet网络的剩余单元表示。分类过程如图2所示:从整个图像中切出1024×1024个图像块,并将真实特征类别标记为训练样本。将训练样本用作图像增强后的训练集。所选的测试样本大小为5334×4951,其中包含九种特征类型。 使用相同的方法标记真实要素类型。 将图像块而不是像素单元发送到网络进行训练,训练后获得模型损失。通过梯度反向传播更新模型参数,直到获得最佳参数。在分类阶段,将测试集发送到训练好的网络进行预测,并对预测结果进行CRF后处理,以获得最终的分类图。

                                     An Improved Res-UNet Model for Tree Species Classification Using Airborne High-Resolution Images论文理解_第4张图片

                            图2.基于机载高分辨率图像的用于树种分类的改进的U-Net模型的工作流程。

2.6.网络结构

2.6.1.ResNet网络

        何凯明等[39]在2015年提出了ResNet网络,该网络在ImageNet竞争分类任务中获得第一名。提出了ResNet来解决深度梯度下降的问题。因此,许多后续方法都基于ResNet50或ResNet101。ResNet参考了它所基于的VGG19网络。它用全局平均池替换完全连接的层,并使用一种称为“快捷连接”的连接方法(请参见图3)。特征图由残差图和标志映射组成,输出为y = F(x)+ x。残差学习比原始特征学习容易。当网络达到最佳状态时,它会继续加深,残差接近零。 此时,网络仅执行身份映射,其性能不会随着深度的增加而降低,避免了网络深化导致的降级问题。在这项研究中,针对不同的模型要求设计了两个残差单位。如图4所示,当输入通道和输出通道的数量相等时,使用图4a所示的残差单元对输入和输出以及原始输入执行三个3×3卷积运算,步长为1。相反,当输入通道和输出通道的数量不同时,使用图4b的残差单元自定义步幅,并在输入和输出上执行3×3卷积,并经过3次卷积运算。本研究中的ResNet网络由这两类残差单元组成。为了完成树种分类任务,在网络的输出端使用残差单元4b代替完全连接的层。 输出二维特征图,并将softmax用于逐像素类别预测。

                             An Improved Res-UNet Model for Tree Species Classification Using Airborne High-Resolution Images论文理解_第5张图片

                                                    图3.两级ResNet残差单位(a),三级ResNet残差单位(b)。

                               An Improved Res-UNet Model for Tree Species Classification Using Airborne High-Resolution Images论文理解_第6张图片

 

                                                           图4.本研究中使用的两个剩余单位(a和b)。

2.6.2.ResNet-Unet网络

     以前,当CNN用于分类任务时,输入只能采用图像形式,而输出则是相应的标签。然而,许多用户希望获得视觉任务中每个像素的分类结果。Ronneberge等[35]在2015年提出了U-Net网络,其网络结构如图5所示。在结构中,“ 3×3 conv,n”表示卷积核为3×3,输入通道数为n的卷积层,“max_pool_2×2”表示步长为2的最大池化层,“3×3 deconv”表示具有3×3转置的卷积层的卷积内核,“concat”是指拼接两个张量,而“m×m”(例如“256×256”)表示特征图的mm大小。它主要用于医学图像分析,然后逐渐用于图像分类任务。U-Net也是CNN的变体,已使用FCN进行了改进。U-Net由两个主要部分组成:收缩路径和扩展路径。收缩路径用于捕获图像的语义信息,而对称扩展路径用于精确定位语义信息。网络结构中不使用完全连接的层。它减少了需要训练的参数数量,从而使网络能够更有效地执行端到端输出。

                                          An Improved Res-UNet Model for Tree Species Classification Using Airborne High-Resolution Images论文理解_第7张图片

 

                                                                                    图5. UNet的网络结构

        我们的树分类策略使用了语义分割的思想。 基于U-Net网络的优势,本研究结合U-Net和ResNet提出了一种Res-UNet网络,并对树种的分类进行了以下改进:(1)卷积层,池化层和卷积层。残差单元被修改。(2)在融合下采样层和上采样层的特征图之前,插入一个残差单元提取图像空间特征,以适应复杂树种的分类。(3)采用线性插值代替反卷积,在一定程度上降低了模型复杂度。(4)将最终产出水平修改为9,以区分9种树种。(5)在网络的输出端,提出了使用CRF进行后处理以优化树种分割图的方法。 网络结构如图6所示。它包括下采样和上采样。 在该结构中,“ 3×3 conv,n”和“ m×m”(例如“ 256×256”)与U-Net的含义相同,“ resize_bilinear”表示双线性插值,而“ add”表示连接两个矩阵 。

                                           An Improved Res-UNet Model for Tree Species Classification Using Airborne High-Resolution Images论文理解_第8张图片

                                                                     图6. Res-UNet的网络结构。

       

         在下采样网络结构中,四个残差单元(步长为2)用于特征提取。每当特征图经过一个残差单位时,其大小就会增加一倍,卷积过滤器的数量也会增加一倍。在每个残差单位中,将数据分批标准化,以确保每个正向传播都以与最大值相同的分布输出。 这样,后向计算中引用的数据样本的分布将与前向计算中的分布相同,从而确保分布均匀,从而导致权重的调整更加有意义,并且避免了网络训练期间出现梯度爆炸的问题。激活函数是整流线性单位(relu),它可使稀疏模型更好地挖掘相关特征并拟合训练数据以加速网络收敛。

         当使用完整的CNN进行高分图像分类时,为了实现端到端分类,反卷积通常用于上采样操作,以将特征图上采样到输入图像的大小。但是,反卷积需要学习大量参数,并且计算量大。双线性插值算法不需要学习参数,从而减少了计算量[45]。因此,本研究使用双线性内插代替反卷积,并分析了其对分类性能的影响。因此,在上采样网络中,使用线性插值运算代替反卷积。每次执行线性插值时,特征图都会加倍,直到其增加到输入特征图的大小为止,以便整个网络都能实现端到端输入。在线性插值过程中,随着卷积数量的增加,提取的特征会更有效;然而,特征图空间信息的丢失很容易发生。因此,在上采样层和下采样层中具有相同大小的特征图被组合以获得具有更高空间分辨率的特征图。

        在这项研究中,首先将降采样的特征图发送到步长为1的残差单元,然后再进行升采样。 融合了升采样特征后,首先对升采样的每一层的输出进行残差运算,步长为1,以确保其具有与相应的上采样层相同的通道大小和数量。在网络的输出端,使用1×1卷积层获得具有与类别相同数量的输出通道的特征图。所提出的Res-UNet网络可通过提取图像的深层特征以实现端到端分类,从而将特征图恢复到输入大小。

2.7 条件随机场(CRF)

    CRF是判别概率模型,是对隐马尔可夫模型(HMM)和最大熵马尔可夫模型(MEMM)的改进。CRF克服了HMM的局限性,因为它只能定义特定类型的要素功能。取而代之的是,CRF可以定义更多的特征函数,并且这些特征函数可以使用任意权重。MEMM仅在本地标准化;因此,很容易陷入局部优化。在CRF模型中,将计算整体概率。归一化时,考虑数据的全局分布,解决了MEMM的标签偏移问题,可以获得全局最优。

在图像分割中,CRF将每个标记的像素视为Markov随机字段中的随机变量,并且整个图像都是全局观测值。 然后,标记为x的能量函数可以表示为:

                                  

第一项是数据项,它是CNN的分割结果,它表示第xi个像素属于每个类别的概率。 第二项是后处理平滑项,它表示两个像素xi和xj之间的灰度值和空间距离之差。此时,可以通过最小化能量函数E(x)来获得最可能的标签组合。 然后,可以获得最佳分割结果。后处理对于分类结果至关重要。为了验证使用CRF进行分类后处理的分类结果的影响,在网络输出中添加了CRF操作。

2.8.网络训练和预测

   在网络训练期间,随机初始化模型参数,并将训练集输入模型进行训练。 使用平均交叉熵损失来计算模型的损失,其中损失函数表示为:

                                

   此处,m代表小批量的大小,x_i和z_i分别代表每批中第i个样本的预测值和真实值。 转发损失,并使用Adam优化器优化网络参数[46]。 Adam优化器的计算公式为:

                            

        其中θ是权重,α是学习速率,t是训练迭代次数,m是动量矢量,s是梯度的平方累加矢量,ϵ是一个无限小的数字。

       最后,在最佳模型下,将学习率设置为1e-5,批处理大小为1,并训练了60,000发子弹,直到精度不再提高。模型权重得到保证。

         在预测期间,由于计算机内存的限制,该模型每次都会预测测试图像的256×256区域,并使用CRF进行后处理,直到遍历整个图像以获得分类结果图为止。本研究使用基于TensorFlow深度学习框架的Python。该操作平台的硬件配置包括Intel®Xeon(R)CPU E5-2620 v4@2.10GHZ和两个nvidia GeForce GTX 1080Ti GPU。

3. 结果

3.1 不同训练样本的树种分类结果

        表3显示了使用40%,60%,80%和100%的训练集的Res-UNet(线性插值+ CRF)网络中树种分类的准确性。 当训练样本为训练集的40%时,分类结果非常差,卡伯系数仅为0.683。 另外,随着训练集的增加,分类精度呈现上升趋势,但增加的幅度逐渐减小。 因此,本研究使用100%的训练集来进行不同方法的实验。

                               表3.具有不同训练样本数的Res-UNet(线性插值+ CRF)网络中的树种分类准确性

                                

 

3.2.树种分类结果

    图7显示了各种分类方法的树种分类结果。根据分类结果的比较和分析,Res-UNet具有更好的区分每种树种的能力。桉树和八角茴香可以更好地分类,但小米塔利亚Mytilaria lausensis严重错位。 经过CRF后处理后,杉木和其他阔叶的混交现象得到改善。

    各种方法的树种分类结果如表4所示。八角茴香的分类精度在各种网络中都很高,表明各种网络可以有效地提取八角茴香的特征,且分类结果相对稳定。除其他阔叶植物外,Res-UNet从ResNet和U-Net改进了树种的分类准确性。添加CRF后处理后,每种树种的分类准确性已提高到不同的水平;总体分类精度提高了2.7%。通过使用双线性插值代替反卷积,树种的分类精度也得到了提高,整体分类精度提高了5.8%。 图7f显示了使用线性插值的后处理和上采样的结果,这再次表明所提出的模型达到了最佳分类效果。 尽管分类精度低于使用高光谱图像获得的结果,但与使用三波段高分辨率图像分类的研究相比,它显示出更高的分类精度。

                                                                   表4.不同分类方法对树种的分类准确性。

                                    An Improved Res-UNet Model for Tree Species Classification Using Airborne High-Resolution Images论文理解_第9张图片

 

          注意:表格中带有灰色背景的数字表示各种分类方法中最高的总体分类精度,平均分类精度和Kappa系数。

                             An Improved Res-UNet Model for Tree Species Classification Using Airborne High-Resolution Images论文理解_第10张图片

 

    图7.不同分类方法对树种的分类结果。(a)地面实况类别,(b)使用双线性插值和CRF的ResNet的结果,(c)使用双线性插值和CRF的U-Net的结果,(d)使用反卷积和CRF的Res-UNet的结果,(e)使用双线性插值的Res-UNet结果和(f)使用双线性插值和CRF的Res-UNet结果。

       如图8所示,ResNet,U-Net和Res-UNet网络使用线性插值而不是上采样和CRF后处理训练精度和交叉熵损失曲线,其中x轴表示训练迭代次数。 经过80,000次反复训练,U-Net和Res-UNet的准确性和损失趋于稳定。 其中,Res-UNet的精度比U-Net的精度略高,并且其损耗下降最快,降至零。 相反,UNet损耗降至0.3并保持稳定,而ResNet的精度和损耗收敛最低。 因此,ResNet是最不理想的模型。

                                          An Improved Res-UNet Model for Tree Species Classification Using Airborne High-Resolution Images论文理解_第11张图片

 

                             图8. ResNet,UNet和Res-UNet的训练准确性(a)和损失(b)曲线

       表5显示了在不同模型训练期间需要训练的参数数量,以及模型训练和预测所需的时间。 当在上采样过程中使用线性插值代替反卷积操作时,训练时间大约相等。然而,当使用线性插值训练时,需要训练少量参数,这降低了操作的复杂性。

                                                               表5.不同分类方法的参数,训练和预测时间。

                                 An Improved Res-UNet Model for Tree Species Classification Using Airborne High-Resolution Images论文理解_第12张图片

 

4.讨论

4.1.影响模型分类能力的参数

4.1.1.CRF对分类结果的影响   

     当使用深度神经网络进行图像分类时,编码过程中的下采样操作将丢失图像信息,从而导致解码过程中图像轮廓恢复不佳。另外,卷积操作是本地连接的,因此只能提取信息从像素周围的矩形区域开始。尽管重复的卷积操作可以逐渐增加矩形区域,但即使在最后的卷积层也无法提取它。CRF模型基于概率图模型,该模型计算任意两个像素之间的相似度以确定它们是否属于同一类,并使用观察场的全局信息来避免由于不适当的建模而导致的错误并补偿边界平滑 深度神经网络引起的问题。基于深度神经网络计算的像素概率,通过CRF融合图像局部结构的先验信息,可以有效提高分类精度。 在这项研究中,CRF后处理操作减少了其他阔叶树种和杉木树种之间的混合,特别是对于研究区域右下角分布较稀疏的其他阔叶树。由此产生的边界更清晰,更平滑,并且分类准确度得到了显着提高。图9比较了CRF后处理后图7f中红色框中混合树种的分类效果。

                                                                       An Improved Res-UNet Model for Tree Species Classification Using Airborne High-Resolution Images论文理解_第13张图片

 

                                                                      图9.使用CRF的弱化树种混合的局部图。

4.1.2 双线性插值而不是反卷积的效果

              双线性插值不同于普通的线性插值方法。它通过找到最接近相应坐标的四个像素点来计算点的值,从而可以有效地减少误差。假设源图像尺寸为m×n,目标图像尺寸为a×b,则两个图像的左右比例为:m / a和n / b。通常,该比率不是整数。浮点数在编程和存储期间使用。 目标图像的第(i,j)个像素点(i-row,j-column)可以通过边长比与源图像相对应,其对应坐标为(i×m / a,j×n  / b)。显然,该对应坐标通常不是整数。双线性插值的计算原理可以得到整数的计算结果,避免出现误差。此外,双线性插值不需要学习参数,从而降低了模型的复杂性。在这项研究中,使用双线性内插代替反卷积后,模型训练所需的参数数量减少了。其他阔叶类,松果类和杉木类的分类准确性分别提高了19%,6.8%和6.8%。其他阔叶叶子的分类精度显示出最大的提高(19%)。此外,总体准确度和Kappa系数平均提高了5.8%和3.8%。

4.2  改进的Res-UNet与U-Net和ResNet网络的比较

网络运行结果表明,Res-UNet的分类结果最佳。也就是说,各种树种的分类准确度和Kappa系数最高,其次是U-Net,ResNet的效果最差。当单独使用ResNet网络时,分类结果分散,边缘粗糙,准确性低并且树木之间发生严重混合。改进的Res-UNet网络使用ResNet残差单元代替U-Net网络卷积层,后者可以提取图像不同比例的信息并识别较小区域中的树种。 同时,避免了由于网络层的深化而导致的梯度下降问题,以获得最佳的分类效果。因此,提出的Res-UNet可以作为对中国南方复杂树种进行分类的有效方法。

 

4.3   不同类别的分类精度比较

      由于各种阔叶树种表现出稀疏的分布,因此将它们分为其他阔叶类。然而,由于不同阔叶树种的特性差异,即使通过改进网络大大提高了准确性,分类效果也不理想。尤为重要的是,桉树的种植面积大且样品量充足。它表现出所有树种中最高的分类精度。八角茴香的分类精度仅次于桉树。它的簇叶很容易与其他树种区分开。因此,假设有足够的样本量,则可以将改进的Res-UNet网络与高空间分辨率图像一起使用,以实现更高的树种分类精度。

4.4  标签样本对分类的影响

      当使用CNN对遥感图像中的树种进行分类时,样本非常重要。 但是,加标签是困难的[47]。 对于阔叶树种的分类,由于样本量小,所提出的方法显示出相对较低的准确性。 因此,对于样本量不足的树种,分类精度会受到影响。 样品制作的问题越来越受到学者的关注[48]。 一些研究人员提出了一种在测试有机碳含量时使用稀疏自动编码器和深度信念网络将无监督学习和半监督学习相结合的方法来制作每种树的样本的方法[49]。 它简化了样品的生产。 在未来的研究中,我们将尝试进一步优化网络结构以解决小样本问题。

5.  结论

        在本文中,我们提出了一种改进的Res-UNet网络,用于使用高分遥感图像进行树分类。 这种新颖的方法使用ResNet的残差单元代替U-Net网络的卷积层。 因此,它可以实现图像的多尺度特征提取,从而允许信息从浅层扩展到深层,同时避免网络性能下降。 在网络的输出处使用条件随机字段进行后分类处理,这将导致树物种边界更平滑。 通过使用双线性内插代替反卷积,网络性能得到了显着改善。

       实验结果表明,与U-Net和ResNet相比,改进的Res-UNet方法可以有效地提取图像的空间和光谱特征。 对于光谱特性差异较小的南方中国树种,总体准确度,平均准确度和Kappa系数分别为87.51%,85.43%和84.21%。 提出的网络为高空间分辨率图像的树种分类提供了新的机会。

作者贡献:概念化,K.C .; 方法学,K.C .;  K.C. 和XL.Z .; 验证,K.C .; 形式分析,K.C .; 调查,K.C .; 资源,K.C。 和XL.Z .; 数据策划 和XL.Z .; 写作-原始草稿,K.C .; 写作-审查和编辑,XL.Z。 所有作者均已阅读并同意该手稿的发行版本。

资金资助:本研究由国家重点研发计划项目“重点研究”资助。森林人工林资源监测技术”(2017YFD0600900)。

致谢:作者要感谢赵琳,吴彦双,田小敏,王月婷,北京林业大学的高凌汉,郭正启和周雪梅,北京的陈和赵雷,森林资源信息技术研究所CAF在实地调查中的帮助。

你可能感兴趣的