笔记——Machine-learned Regularization and Polygonizationof Building Segmentation Masks 翻译文本

 摘要

我们提出了一种基于机器学习的建筑物分割掩模自动正则化和多边形化方法。以图像为输入,首先使用通用完全卷积网络( FCN )预测建筑物分割图,然后使用生成对抗网络( GAN )对建筑物边界进行正则化处理,使其更加逼真,即有更多的直线型轮廓,在需要时构造直角。这是通过给定输入图像为真的概率的鉴别器和从鉴别器响应中学习创造更真实图像的生成器之间的相互作用来实现的。最后,从正则化的建筑物分割结果中训练出适应预测建筑物角点对应稀疏结果的骨干卷积神经网络( CNN )。在3个建筑物分割数据集上的实验表明,该方法不仅能够得到准确的分割结果,而且能够生成参数化为多边形的视觉愉悦的建筑物轮廓。

1.引言

 从航空或卫星影像中提取建筑物多边形矢量表示的能力已成为城市规划与发展、城市建模、地图学等众多遥感应用中的研究热点。新方法的兴趣和发展也源于目前存在的几个公共基准数据集,如INRIA、SpaceNet、CrowdAI等,该研究领域的经典方法大多是将语义类赋值到图像中的每个像素,得到分类掩模作为输出。但是,对于许多应用来说,矢量信息形式的更高级的输出是有需求的。在本工作中,我们不仅要提供建筑物分割结果,其轮廓遵循真实的建筑物形态,主要是直线和直角,而且要为每个建筑物实例生成多边形向量结构。

卷积神经网络( CNNs )为计算机视觉领域带来了重大贡献,将自己确立为语义和实例分割的基础。然而,在高精度地进行像素分类的同时,它们在划定准确和规则的建筑物边界方面存在问题。为了克服这个问题,我们在像素域中应用几何约束,利用对抗性损失对边界进行正则化。具体来说,基于生成对抗网络( GAN )的生成部分将残差递归U - Net ( R2U-Net )得到的分割结果或数据集的真值作为输入。通过获取鉴别器的梯度反馈,验证其输入是来自正则化分割模板还是理想分割模板,生成器学习输出我们初始分割的改进轮廓。

 在文献中,已有一些方法尝试使用CNN范式直接预测物体边界的顶点。它们要么是基于一次迭代预测一个物体的轮廓点[ 8,9 ],并有可能被用户交互进行修正,要么只预测4边多边形[ 10 ],然而现实世界的建筑物并不拘泥于一定量的角点。受此启发,Li et al . [ 11 ]在区域建议网络( RPN )之上提出了一个递归神经网络( RNN ),该网络逐步预测每个感兴趣区域内单个建筑物可能出现的角点。在我们的方法中,我们不想局限于对以输入补丁为中心的单个建筑物的角点预测。对提出的Mask2Poly网络进行训练,从正则化分割结果中预测图像场景中建筑物随机数的任意多个角点(取决于结构复杂度)。

 对提出的Mask2Poly网络进行训练,从正则化分割结果中预测图像场景中建筑物随机数的任意多个角点(取决于结构复杂度)。在得到Mask2Poly的角点预测后,多边形表示的一些结果如图1所示。在第二节中,我们审查了有关领域的最新方法。然后在第三节中介绍了所设计的体系结构的细节和所选目标函数背后的直觉。在第四节中,我们展示了我们的方法在三个公开数据集上的有效性,即INRIA [ 1 ]、SpaceNet [ 2 ]和CrowdAI [ 3 ]。

笔记——Machine-learned Regularization and Polygonizationof Building Segmentation Masks 翻译文本_第1张图片 

2.准备工作

 从顶视图像中进行建筑物分割几十年来一直是遥感领域的主要研究课题之一。在深度学习时代之前,传统的建筑足迹提取方法依靠多步工作流程,利用检测到的低层特征形成建筑假设[ 12,13 ],假设建筑由规则的矩形形状组成[ 14,15 ],以及建筑外观之间光谱反射率值的相似性[ 16,17 ]。在引入更强大的硬件之后,最近的方法开始大量利用深度卷积网络进行自动建筑物划定,提供最新的成果。利用卫星或机载图像的高分辨率光谱信息,将FCN应用于卫星或机载图像的像素语义分割[ 5,18 ]。一些方法将来自数字表面模型( DSMs ) [ 6,19 ]或OpenStreetMap ( OSM ) [ 20 ]的高度形式的附加信息嵌入到光谱信息中,增加建筑物的证据。

 最近几年,基于UNet的体系结构不仅在医学图像中而且在遥感领域成为分割和检测任务最成功的模型之一。受最近提出的基于UNet的模型的启发,这些模型在不同的建筑物提取挑战中取得了最新的性能[ 18,21 ],本工作使用了带有残差层和递归层的UNet的变体[ 22 ]。

 建筑物分割正则化近年来受到越来越多的关注。因为神经网络试图为每一个图像像素决定它是否属于建筑物,他们不考虑它的几何形状。因此,建筑物分割结果往往具有blob状的外观。因此,一个脚印规则化的步骤对于强制执行由此产生的轮廓不仅与地面真实相符,而且具有现实的表象非常重要。Zhao et al . [ 23 ]提出用多步多边形简化方法对语义分割网络得到的建筑物实例进行规则化。Marcos等. Kass等[ 24 ]通过集成经典的活动轮廓模型,提出了一种更为先进的体系结构。深入CNN进行端到端的联合学习。在下面的工作中,Cheng et al .文献[ 26 ]介绍了一种基于活动轮廓极性表示的网络,该网络阻止了自相交,强制轮廓更加接近地面真实情况。与我们最相关的工作是Zorzi等人。”[ 7 ],这就不同地看待了问题。本文作者利用Potts [ 27,28 ]和归一化割[ 28 ]正则损失对正则网络进行了无监督训练,它嵌入了关于从强度图像到网络构建边界的额外知识。在我们的工作中,我们扩展了文献[ 7 ]中提出的算法,重新定义了正则化网络的训练过程和结构,从而在定性和定量方面取得了更好的结果。

 多边形预测对于多个学科来说是一个困难但关键的步骤,因为它提供了基于向量的数据表示。通常,语义分割结果采用Douglas-Peucker [ 29 ]、RANSAC [ 30 ]或Hough变换[ 31 ]等算法作为后处理步骤进行矢量化。最近的方法试图将矢量化过程集成到基于端到端的深度学习模型中。Castrejon等人的方法。[ 8 ]以及Acuna等人的后续工作。文献[ 9 ]基于RNN依次在物体边界周围产生多边形顶点。这些方法虽然取得了令人瞩目的结果,但在多边形化对象的大小和数量(每个过程只标注一个对象的图像集)方面与我们的算法不同。此外,在多边形顶点的预测过程中允许人类注释器的交互,以便在需要时对其进行修正。相比之下,我们提出了一种基于深度学习的方法,在不限制输入图像中对象数量的情况下,自动预测多边形顶点。

3.研究方法

 在本文中,我们提出了一种建筑物提取流水线,该流水线不仅旨在达到最新的分割精度,而且试图在视觉上预测令人愉快的建筑物多边形。管道由三个连续独立的步骤组成。作为第一步,一个FCN被用来检测和分割给定强度图像的建筑足迹。由此得到的分割结果在交点重叠合并( IoU )、召回率和完全性方面都能达到很高的准确性,但预测的建筑边界没有规则的形状,因为建筑几何没有约束。为了得到更加真实的分割结果,我们通过使用对抗、重构和正则化损失相结合的方法训练第二个CNN来进一步细化分割结果。因此,提取的建筑脚印形状更加规整,棱角尖锐,边缘平直。正如我们在第四节稍后所显示的,这一步在不损失分割精度的情况下大大提高了脚印质量。最后,我们为每个建筑物实例提取一个多边形,从其正则掩模中检测角点。在随后的章节中,我们详细描述了管道的每个组件。

A .建筑物检测与分割

 本文方法的第一步是对卫星或航拍图像中存在的建筑物边界进行检测和勾勒。这个任务可以利用文献中提出的众多实例或语义分割网络中的一个,利用交叉熵损失进行训练。由于管道的三个阶段相互独立,因此可以选择在特定数据集上最适合或表现最好的语义分割网络实例。在这项工作中,我们决定使用[ 22 ]中提出的R2U-Net作为分割基线,这是一个简单但精确的网络,保证了很高的建筑物分割精度。

笔记——Machine-learned Regularization and Polygonizationof Building Segmentation Masks 翻译文本_第2张图片 

B .分割的规则化

 由于预测过程中缺乏几何约束,分割网络预测的足迹通常具有圆角和不规则的边缘。从初始的建筑物分割中提取建筑物多边形是一个很艰巨的任务,可能导致角点提议程序出现错误。为此,作为第二步,我们使用CNN进行建筑正则化,其目的是产生具有规则和视觉上讨人喜欢的边界的建筑足迹。这种翻译可以成功地实现训练一个由两种不同模型组成的GAN网络。其中一个网络是试图生成分割掩码正则化版本的生成器,另一个网络是检验生成的和理想的足迹并估计它们是真的还是假的判别器。生成器的目标是愚弄辨别者,随着两个网络在训练中越来越擅长自己的工作,最终生成器被迫生成建筑足迹,随着每次迭代变得更加真实。该生成器旨在学习由分段足迹构成的领域X与由理想足迹构成的领域Y之间的映射函数,给定训练样本{ xi } N i = 1其中xi∈X,{ yi } M i = 1其中yi∈Y。为了进一步改进结果,我们还利用强度图像,{ zi } N i = 1,其中zi∈Z,用额外正则损失训练模型。生成器利用残馀自编码器结构执行正则化G:{ X,Z }→Y,如图3所示。正则足迹是通过编码器EG和剩馀解码器F组成的路径产生的,因此生成器G可以看作它们的组合G ( x,z ) = F ( EG ( x,y ) )。判别网络D试图估计所呈现的图像是由G生成的正则足迹还是理想足迹。该路径背后的原因是推导出y的重构版本。然而,由于理想掩码是一热编码零和一热编码,自编码器的输出可以在零和一之间变化,对抗网络可以很容易地区分两种分布。因此,重构和正则化的图像样本都是使用相同的网络F生成的。由于两个自编码器与普通解码器联合训练,所提出的架构被保证是稳定的,从而避免了鉴别器获胜的情况。

笔记——Machine-learned Regularization and Polygonizationof Building Segmentation Masks 翻译文本_第3张图片

 

1 )目标函数:学习过程中的三类损失函数是由文献[ 7 ]中产生的良好建筑足迹所激发的:对抗损失、重建损失和正则损失。[ 32 ]中引入的对抗损失用于学习域X和Y之间的映射函数,鼓励生成器G产生类似于理想样本的足迹。目标函数的这个组成部分作为建筑物几何边界的约束,它表示为:

 判别器D被训练用来区分正则化足迹和重构足迹,其目标函数可以表示为:

 

 其中,路径R ( y ) = F ( ER ( y ) )编码并重构理想掩码,路径G ( x,z ) = F ( EG ( x,z ) )生成正则足迹。引入重构项,迫使生成器G产生与作为输入接收到的分割结果相似的整体形状和姿态的建筑物足迹。损耗也通过重构路径R计算得到理想掩模的重构版本。作为重构损失,我们简单地使用二进制交叉熵,两个损失可以写成:

 

除了对抗性损失和正则化损失之外,还使用了软版本的Potts和Normalized Cut准则来挖掘强度图像的信息,进一步提高正则化结果。Potts和Normalized Cut方法是最初提出的用于图像分割的流行图聚类算法。如[ 7 ]所示,生成器G可以有效地将这些术语最小化,从而使最终的足迹与强度图像中观察到的建筑物边界保持一致。Potts和归一化切损可以表示为:

笔记——Machine-learned Regularization and Polygonizationof Building Segmentation Masks 翻译文本_第4张图片

其 中S = G ( x,z )是网络产生的k路softmax掩模,Sk描述了其第k个信道的向量化。W和W是两两不连续性代价矩阵,每个项描述两个节点(或像素)之间的权重,在RGBXY空间上用高斯核计算。用于联合训练发电机路径G和重构路径R的全目标是对抗损失、正则损失和重构损失之间的线性组合。

 值得注意的是,这些损耗分量是通过将编码器ER和EG一次连接到剩馀解码器F一上得到的。一旦计算完全部目标,EG、ER和F将联合更新。

 C.多边形的提取

一旦建筑物的足迹被正则化,我们为每个建筑物实例提取一个多边形。本任务是利用简单的CNN进行角点检测来完成的。模型接收正则化掩模作为输入,并生成一个角点建议概率图。概率图中某个值高于某个阈值的像素可以认为是建筑物多边形的有效角点。在推理过程中,每个正则化的足迹由角点检测网络独立评估。然后将检测到的点按顺时针方向沿着正则足迹的周长移动,以便为多边形产生有效的坐标集合。作为最后一步,我们过滤了如图4所示靠近边缘的冗馀点。

笔记——Machine-learned Regularization and Polygonizationof Building Segmentation Masks 翻译文本_第5张图片

4.实验 

 A .实验设置

1 )数据集:在INRIA [ 1 ]、CrowdAI [ 3 ]、SpaceNet [ 2 ]等多个航空和卫星建筑物分割数据集上对本文提出的管道进行了评估。

 INRIA数据集是一个航空数据集,涵盖了来自不同地理位置的各种城市定居现象。该数据集的特殊性在于测试集包含的城市与训练集不同,由180幅训练和180幅测试5000 × 5000正射纠正图像组成,分辨率为30 cm。CrowdAI数据集包含28万幅用于训练的卫星图像和6万幅用于测试的图像,图像分辨率为300 × 300像素。在测试集推理过程中,抽取了超过50万个建筑实例并进行了正则化。SpaceNet数据集由来自佛罗里达州杰克逊维尔和坦帕两个城市的30 ~ 50 cm的全锐RGB卫星图像组成。数据集被分割成62幅测试集的图像和174幅训练集的图像。所提供的图像大小为2048 × 2048像素。

所有这些数据集都有各种不同大小、形状和复杂度的建筑物,使得正则多边形的提取具有挑战性。

2 )网络结构:正则化网络具有如图3所示的残差自支配序结构。编码器EG和ER是一个3 × 3卷积层的序列,然后是批归一化[ 33 ]和2 × 2最大池化层。每次下采样操作后,卷积滤波器的数目增加一倍,张量的大小减少一半。解码器F由8个残差层组成的链[ 34 ],依次进行3×3卷积、批归一化层和2×2上采样操作。与文献[ 7 ]提出的体系结构相比,我们的编码器只有两个池化层,以便保持输入掩模的细微细节的踪迹。如第四节所示,这种选择允许解码器F以更精确的方式重建作为输入的建筑物,同时它可以有效地规整它们,无论它们的形状和复杂性如何。鉴别器D共享编码EG和ER的同一层组合,但它具有更深的体系结构,共有4个最大池操作。对于角点检测网络,我们只是简单地利用了用于建筑物正则化的网络G的体系结构模型,但只使用了4个残差层。

 3 )训练细节:与文献[ 7 ]提出的通过正则网络逐个扩展和转发构建实例的训练方法不同,我们使用从数据集样本中裁剪的256×256个补丁训练我们的GAN。这有助于学习发电机和鉴别器意识到小、中、大建筑物之间的形状差异。作为理想的掩膜,我们利用所选数据集的地面真实情况中呈现的准确而好看的建筑足迹。模型以批大小为4进行14万次迭代训练。我们在式中设定α = 3,β = 1,γ = 3。( 5 ) .和δ在前4万个批次保持为0,然后在后4万个批次分别线性增加到1和175,以保持学习更加稳定。公式中Potts损失和归一化削减损失的权重矩阵W和W。( 4 )采用文[ 7 ]所述的相同表达式和超参数计算。

 由于我们用于评估的数据集提供了已经栅格化的地面真实情况,因此用于检测建筑物角落的CNN使用OpenStreetMap中为芝加哥和杰克逊维尔市提供的建筑物多边形进行训练。对于初始建筑物分割,我们使用从SpaceNet和INRIA图像样本中随机抽取的448×448块训练的R2U-Net。在CrowdAI中,我们直接使用数据集中提供的300 × 300的图像对模型进行训练。此外,我们还利用文献[ 3 ]中提供的预先训练好的权值,以Mask RCNN [ 35 ]为基准给出了一些结果。在所有网络的训练中,我们对图像(随机旋转和翻转)进行了标准的数据增强,并使用Adam [ 36 ]优化器对所有管道模型进行了训练,学习设定为0.0001。

B .结果

 在INRIA和SpaceNet数据集中我们对比了基线方法和Zorzi等人的结果。[ 7 ] .基线利用R2U-Net作为主干执行初始建筑物分割。然后用文献[ 7 ]描述的正则化方法和我们的建筑物提取方法对结果进行处理,产生最终的足迹。基于IoU和准确性的最终得分见表I和表II。我们的建筑物精化可以取得可比的定量结果,或者在某些测试区域,甚至高于纯基线。实际上,我们的方法从INRIA数据集中获取了Bellingham、Bloomington和Tyrol测试区域中较高的IoU值,并证明了在SpaceNet数据集中达到与纯基线解非常接近的精度。这是一个标志,由多个模块级联而成的流水线不会导致性能的明显下降。

在CrowdAI中,我们分别测试R2U-Net和Mask R- CNN作为初始分割的基线网络。再次,提出的正则化方法能够取得接近纯分割网络的效果。Zorzi等人获得的IoU和准确性分数。[ 7 ]考虑到CrowdAI数据集主要由中小规模结构组成,角点数量较少,因此可以解释。

1 )定性结果:我们在图6中可视化了不同方法生成的建筑足迹。用[ 7 ]提取的建筑物足迹,如果建筑物具有较低的顶点数,则准确且视觉上令人愉快。反之亦然,如果构造复杂,网络就无法产生像样的建筑边界。

本文提出的算法克服了不考虑建筑物规模和复杂度的情况下,生成准确、真实的足迹的问题。值得注意的是,我们的多边形提取算法还可以处理为每个建筑物周长创建多边形的内部院落,如图6的第二行所示。

尽管在大多数情况下取得了良好的结果,但在存在遮挡的情况下,所提方法仍然无法提取足够的上下文信息来进行正确的正则化。图5显示了Mask2Poly评估的居住区。在排成一条线的建筑前面,道路的存在将表明,被遮挡的建筑也对着街道,与提取的脚印相反。对场景中所有建筑物的布置和方位施加约束,将有助于正则化网络从卫星或航空影像中生成建筑物的连贯地图。

笔记——Machine-learned Regularization and Polygonizationof Building Segmentation Masks 翻译文本_第6张图片

 

5 .结论

本文提出了一种由3个不同且相互独立的神经网络模块组成的建筑物分割和正则化多边形提取的方法。敌对性和规则性损失的结合,对建筑产生了有效的几何约束,促使我们预测的足迹与建筑边界相匹配。此外,正则化允许我们使用简单但有效的全卷积网络( FCN )提取精确的建筑物多边形进行角点检测。

实践证明,该方法不仅在IoU和精度现有分割网络相当甚至更高,而且甚至更高的结果,而且能够生成逼真、直观的可用于许多制图和工程应用的构造轮廓。

你可能感兴趣的