基于计算机视觉的民用基础设施的检查与监测研究进展丨Engineering

- 编辑：admin - 2025-09-03 09:01 点击数：329

基于计算机视觉的民用基础设施的检查与监测研究进展丨Engineering

本文选自中国工程院院刊《Engineering》2019年第2期

作者：,VedhusHoskere,YasutakaNarazaki

编者按

民用基础设施如桥梁、水坝、高速公路、建筑物等的使用时间通常会超过其自身的设计寿命，为使这些基础设施更好地服役，需要对其进行检查、监测以及修复，并在此基础上了解和评估基础设施的现状。对民用基础设施状况的评估，传统上是由技术人员根据相应的标准规定进行目视检查，但这种检查耗时、费力、成本高且一定危险性。计算机视觉技术与远程摄像机、无人机采集相结合，为民用基础设施状况评估提供了前景良好的非接触式解决方案。

中国工程院院刊《Engineering》2019年第2期刊发美国伊利诺伊大学厄巴纳-香槟分校教授科研团队的《基于计算机视觉的民用基础设施的检查与监测研究进展》，概述了将计算机视觉技术应用于民用基础设施状态评估的最新进展，特别介绍了计算机视觉、机器学习和结构工程领域的相关研究应用于民用基础设施评估的研究进展。文章指出，民用基础设施评估工作分为两类：检查应用和监测应用。检查应用包括识别环境，如结构构件，表征局部和全部的可见损坏以及检测参考图像的变化；监测应用包括应变和位移的静态测量，以及模态分析的位移动态测量。最后，文章指出了为实现基于自动化视觉的民用基础设施和监测目标而持续存在的一些关键挑战，以及为解决这些挑战而正在进行的工作。

一、引言

许多为当今社会服务的重要基础设施，包括桥梁、水坝、高速公路、生命线系统和建筑物，都是几十年前建成的，远远超过了其自身的设计寿命。例如，美国土木工程师协会发布的《2017年基础设施报告》显示，美国有超过56000座桥梁存在结构缺陷，需要花费1230亿美元的巨额资金来修复。修复工作的经济意义需要通过仔细了解基础设施的现状来确定系统的优先次序。

民用基础设施状况评估是利用检查和（或）监测过程所获得的信息进行的。评估民用基础设施状况的传统技术通常包括目视检查，是由经过培训的人类检查员结合相关决策标准（如ATC-20、国家桥梁检查标准）进行的。然而，这种检查耗时、费力、成本高，又有一定危险性（图1）。监测可用于通过测量物理量[如加速度、应变和（或）位移]来定量了解结构的现状；这些方法可以实时且连续地观察结构完整性，目的是增强安全性和可靠性，并降低维护和检查成本。虽然这些方法可以产生可靠的数据，但它们通常具有有限的空间分辨率或者需要安装密集的传感器阵列。另一个问题是，一旦安装密集的传感器阵列，传感器的访问将受到限制，这使得常规系统维护具有挑战性。如果仅需要偶尔监测，则接触式传感器的安装是困难且耗时的。为了解决其中的一些问题，必须开发并测试改良的检查和监测方法，减少人为干预，降低成本和提高空间分辨率，以推进和实现自动化民用基础设施状况评估带来的全部益处。

图1美国陆军工程兵团的检查员从闸门垂降，检查表面是否有损坏

本文对近年来基于视觉的民用基础设施状况评估的研究进行了综述。为了将本文所述的研究以适当的技术观点展开，第2节首先讲述了计算机视觉研究简史。第3节详细回顾了近年来关于计算机视觉技术在民用基础设施评估的检查应用中的一些成就。第4节重点介绍了监测应用。第5节概述了实现自动化结构检查和监测所面临的挑战。第6节讨论了作者为实现自动化检查目标正在进行的工作。第7节阐述了本文的结论。

二、计算机视觉研究简史

计算机视觉技术的最新进展主要通过使用人工神经网络（ANNs）和卷积神经网络（CNNs）的端到端学习来推动。在ANNs和CNNs中，复杂的数据输入-输出关系由一个参数化的非线性函数来近似，该函数使用节点单元定义。每个ANN节点的输出由下式计算：

式中，xn为节点n的输入向量；yn是该节点的输出标量；wn和bn分别为权向量和偏置参数；σn是一个非线性激活函数，如S型函数和整流器（整流线性单元或ReLU）。类似地，CNNs每个节点都应用卷积，然后得到一个非线性激活函数：

式中，*表示卷积；Wn

这些算法在构建高度复杂的视觉问题的感知系统方面取得了显著成功。CNNs对修订后的美国国家标准与技术研究院（NIST）手写数字分类问题的准确率达到99.5%以上[图2（a）]。此外，在1000类ImageNet分类问题上，最先进的CNN体系结构的前五大错误率还不到5%（实际分类不标记前5个分类得分的数据比率）[图2（b）]。

图2热门图像分类数据集。（a）MNIST数据集中的示例图像；（b）ImageNet示例图像，通过t分布随机邻域嵌入（t-SNE）进行可视化

图3全卷积神经网络（FCNs）

监督学习技术的弱点是需要高质量标记数据（如已经识别了对象的图像）用于训练目的。尽管已经创建了许多软件应用程序来帮助简化标记过程，但手动标记仍然是一项非常繁琐的工作。所以，针对目标检测和定位任务，本文提出了一种弱监督训练方法，该方法不需要对图像进行像素级或目标级标记；同时，CNN被训练成智能图像标签以获得对象类别和图像中的近似位置。

无监督学习技术通过识别观测数据中的潜在概率结构，进一步减少了对标记数据的需求。例如，聚类算法（如k-均值算法）假设数据（如图像块）由多个数据源（如不同的材质类型）生成，并基于最大似然法（ML）将每个数据样本分配给其中一个数据源。例如，DeGol等使用k-均值算法对成像表面进行材料识别。通过将参数化概率模型拟合到观测数据[如高斯混合模型（GMM），玻尔兹曼机]，可以提取更为复杂的概率结构。在图像处理背景下，研究人员对基于CNN的无监督学习体系结构进行了积极的研究，如自动编码器和生成式对抗网络（GANs）。这些方法可以自动学习输入图像的压缩表示和（或）从压缩图像恢复/生成的过程，而不需要手动标记数据。参考文献[51]对不同的有监督和无监督学习算法进行了全面而简明的回顾。

随着这些技术的进步，计算机视觉技术已经被用于实现各种各样的前沿应用。例如，通过使用计算机视觉技术（图4），自动驾驶汽车可以识别和应对驾驶过程中可能遇到的潜在风险。准确的人脸识别算法增强了社交媒体的能力，也被用于监控应用（如机场执法）。其他成功的应用包括城市自动测绘和医学成像增强。计算机视觉技术在许多领域的显著改进和成功应用，为学者们开发土木工程问题的计算机视觉解决方案提供了越来越多的动力。事实上，使用计算机视觉是改善民用基础设施监测和检查的一个常规步骤。以下各节将以这段简史为背景，介绍为适应和进一步发展用于检查和监测民用基础设施的计算机视觉技术而进行的研究工作。

图4Waymo的自动驾驶汽车系统

所有图像版权与Waymo公司图片的使用均符合“《美国法典》第17条第107款对专有权的限制：合理使用。”

三、检测应用

（一）损伤探测

自动化探伤在任何自动或半自动检测系统中都是至关重要的一个环节。当用结构体表面损伤部分和未损伤部分的像素比来表示时，结构体影像中的缺陷就很难被发现。因此，对可见缺陷进行高精度和记忆性探测是一项十分困难的工作。由于存在类似损伤的特征，这个问题更加复杂（如类似凹槽的深色边缘可能会被误认作裂缝）。如下所述，目前人们已经做了大量研究，致力于开发可靠地识别不同视觉缺陷的方法和技术，包括混凝土裂缝、剥落与脱层，疲劳裂纹，钢筋锈蚀，沥青裂缝。以下讨论了三种不同的探伤途径：①启发式特征提取法；②基于深度学习的损伤探测；③变化检测。

1.启发式特征提取法

研究人员为使用图像数据探伤制定了不同的启发式方法。原则上，这些方法在运作时会针对特定的损伤类型给手工过滤器的输出加上一个阈值或者机器学习分类器。本章节描述了几种关键的损伤类型，并针对这些损伤已开发出相应的启发式特征提取法。

（1）混凝土裂缝。基于视觉的损伤探测，其早期工作大多集中于基于启发式滤波器的混凝土裂缝的识别。边缘探测滤波器是第一种用于损伤探测的启发式方法。关于该方法的早期调查可以在参考文献[71]中找到。Jahanshahi和Masri根据形态特征，结合分类器（神经网络和支持向量机）确定了不同厚度层中的裂缝。本研究的结果如图5所示，其中第一列显示本研究中使用的原始图像，后续各列显示了应用BottomHat方法、Canny方法和参考文献[72]中的算法得出的结果。本文还提出了一种通过识别裂纹中心线和计算裂纹边缘距离来量化裂纹厚度的方法。Nishikawa等提出了用于裂纹检测和性能评估的多序列图像滤波。其他研究人员也开发了评估混凝土裂缝特性的方法。Liu等提出了一种通过图像自适应处理自动进行裂缝评估的方法，该方法利用中值滤波器将裂缝的骨架和边缘分离。在参考文献[81,80]中，深度与三维（3D）信息也被用来进行定量损伤评估。Erkal和Hajjar开发并评估了聚类处理技术，利用基于表面法线的损伤检测对彩色激光扫描数据中的裂纹、腐蚀、破裂和剥落等缺陷进行自动分类。在本文讨论的许多方法中，二值化是管道裂纹检测中常用的一种方法。Kim等比较了几种不同的二值化方法。这些方法已被应用在多种民用基础设施中，包括桥梁、隧道衬砌和震后建筑评估。

图5参考文献[81]中实施的不同探伤方法的比较

（2）混凝土剥落。本文还提出了识别混凝土中其他缺陷的方法，如剥落法。Adhikari等采用了一种与桥梁状况指数相结合的新型正交变换法来量化退化过程，随后再映射到状况等级中。作者对其数据集进行的剥落探测能够达到85%的合理精确度，但是无法处理裂缝和剥落同时存在的情况。Paal等采用分割、模板匹配和形态预处理相结合的方法进行层裂检测和混凝土柱评估。

（3）钢材的疲劳裂纹。疲劳裂纹是钢桥面板的一个重大问题，因为它们会显著缩短钢结构的寿命。然而，关于民用基础设施钢材疲劳裂纹探测的研究却相当有限。Yeum和Dyke在一根钢梁上手动制造了一些损伤去模拟疲劳裂纹（图6）。然后，他们采用目标检测和过滤技术相结合的区域定位方式确定了疲劳裂纹状缺陷。他们做了一个有意思且有用的假设：疲劳裂纹通常围绕着螺栓孔延展；然而这一假设对其他焊接而成的钢结构主要部件来说可能并不合理，如人字门等导航基础设施。Jahanshahi等提出了一种区域成长法，用于分割核反应堆内部零件的细小裂纹。

图6参考文献[89]中用于桥梁检测的基于视觉的自动化裂缝探测

（4）钢铁腐蚀。研究人员现在使用纹理、光谱和色彩信息来识别腐蚀。Ghanta等提出利用小波特征和主成分分析对图像中的腐蚀进行百分比估计。Jahanshahi和Masri对基于小波的腐蚀算法性能进行了参数化评估。有研究者提出并评估了使用纹理和色彩信息的方法。也有人提议用机械化和基于智能手机的维护系统的自动算法来实施图像化腐蚀检测。在参考文献[98]中有一项关于利用计算机视觉进行腐蚀检测方法的调查。

（5）沥青缺陷。使用启发式特征提取技术检测和评估沥青路面裂缝和缺陷的方法很多。Hu和Zhao采用了一种局部二元模式（LBP）算法来识别路面裂缝。Salman等提议使用Gabor滤波器。Koch和Brilakis使用直方图阈值法来自动检测路面上的坑槽。除了RGB数据外（RGB指三种颜色通道，分别代表红、绿、蓝光波长），深度数据也被用于道路状况评定。例如，Chen等指出，他们使用了一种廉价的RGB-D传感器（MicrosoftKinect）来探测、量化、定位路面缺陷。有关沥青缺陷检测方法的详细回顾，请参见参考文献[107]。

为了进一步研究这些缺陷的识别方法，Koch等对2015年之前开发的计算机视觉缺陷检测技术进行了全面回顾，并根据其应用的结构进行了分类。

2.基于深度学习的损伤探测

迄今为止，我们所讨论的研究和技术可分为两类：利用机器学习技术，或者依赖于启发式特征和分类器的组合。然而实际上，此类技术在自动化结构检测环境中的应用还很有限，因为这些技术并未采用缺陷所在区域附近的信息，如材料性质或结构构件。这些基于启发式过滤的技术需要根据监测目标结构的外观来进行手动或半自动调整。真实情况变化多端，要想手工制定一套适用于一般情形的通用算法非常困难。最近，计算机视觉深度学习在一些领域取得了成功，如常规的图像分类、自动传输系统和医学成像，推动了其在民用基础设施检查和监测中的应用。深度学习极大地扩展了基于视觉的传统的损伤检测能力和稳健性，用于从裂纹、剥落到腐蚀等多种视觉缺陷的检测。目前人们已经研究了几种不同的探测方法，包括①图像分类法，②目标检测或区域提议法，以及③语义分割法。以下是对这些应用的讨论。

（1）图像分类法。CNNs可用于对钢板层、沥青路面、混凝土表面裂缝的探测，并且在所有情况下都非常精确。Kim等提出了一种分类框架，利用CNN和加速稳健特征（SURF）识别类裂纹模板中的裂缝，并且利用图像二值化确定像素位置。像Alexnet这样的结构已经针对裂纹检测进行了微调，而GoogleNet也同样针对剥落进行了微调。Atha和Jahanshahi针对腐蚀探测分析评估了几种深度学习技术，Chen和Jahanshahi建议利用朴素贝叶斯数据与CNN相结合来进行裂纹探测。为了简化检测过程，Yeum利用CNNs提取了高速公路桁架结构的重要部位。

Xu等利用深度学习神经网络系统地研究了长跨桥钢面疲劳裂纹检测，包括一台受限的玻尔兹曼机和融合CNN。在内场测试的复杂背景下，这种新型的融合CNN能够精确识别多种尺度下的的微小裂缝。Maguire等整理了一套用于机器学习应用的混凝土裂缝图像数据集，其包含56000张图像，分为有裂缝和无裂缝两类。

Bao等建议将DCNNs作为异常检测器，帮助检查员从记录加速度数据的桥梁结构健康监测（SHM）系统中过滤异常数据。Dang等利用UAV采集桥梁的特写照片，然后将CNNs应用到图像块中，自动检测结构损伤。

（2）目标检测法。目标检测法最近已被用于损伤探测。目标检测法是在损伤区域附近划分出一个边界框，而不是对整张图片分类。Yeum等使用具有CNN特征的区域（R-CNNs）在灾后场景中进行了层裂缝检测，但结果（59.39%的真阳性）仍有提升空间。到目前为止所论述的方法仅适用于单个DT。与之相反，深度学习法可以在极多类型的图像中学到可识别特征的一般表示。例如，DCNNs已成功解决了超过1000种类型的分类问题。目前，针对多种DTs的检测技术研究很有限。Cha等研究了FasterR-CNN法，该方法是由Ren等提出的一种基于区域的方法，用来识别包括混凝土裂缝和不同等级腐蚀和分层在内的多种损伤类型。

（3）语义分割法。基于目标探测的方法不能准确地将其分离出的损伤轮廓描绘出来，因为它们仅仅是为了与相关区域周围的矩形相适应。另一种分离图片中相关区域的方法称为语义分割法。更准确地说，语义分割是将图像中的每一像素划分为不固定数量的类。其结果是在一张分割过的图像中，每个部分被划分为一个特定类别。因此，在进行损伤检测时，语义分割法可以描绘出损伤的精确位置和形状。

Zhang等提出了CrackNet，它是一种有效针对路面裂缝的语义分割体系。对象实例分割技术MaskR-CNN最近也被应用于裂缝、剥落、钢筋外露和风化的探测。尽管MaskR-CNN提供了像素级损伤描述，它也只能分割“目标”所在区域的部分图像，而不是对整个图像进行语义分割。

Hoskere等对两种用于多种DTs常规定位和分类的方法进行了评估：①多尺度像素DCNN，②全卷积神经网络（FCN）。如图7所示，研究人员考虑了六种不同类型的DTs：混凝土裂缝、混凝土剥落、钢筋外露、钢铁锈蚀、钢铁断裂与疲劳裂纹、沥青裂缝。参考文献[127]提出了一种新型的网络配置和数据集。数据集由各种结构的图像组成，包括桥梁、建筑物、路面、堤坝和实验室标本。该技术由两种网络的平行配置组合而成——DP网和DT网——能提高损伤探测的效率。该数据集中损伤规模的多样性证明了这一技术具有标度不变性。

图7对多种结构性DTs进行基于深度学习的语义分割

3.变化探测

（1）点云变化探测。运动恢复结构（SFM）和多视角立体视觉（MVS）是基于视觉的技术，它们可使结构体产生点云。在实施变化探测法之前，必须先建立一条点云基线。正如参考文献[130,131]所描述的，即使在桁架桥或堤坝这类复杂的民用基础设施中，这些点云的精确度也很高。后续的扫描将会被注册到云基线，校准将由迭代最近点（ICP）算法代为执行。ICP算法已在MeshLab和CloudCompare等开源软件中得到了应用。校准之后，就可以开始执行变化探测的各个程序了。这些技术同时适用于激光扫描点云和从摄影测量中产生的点云。早期研究将云与云之间（C2C）的豪斯多夫距离作为在3D空间中识别变化的度量标准。其他技术包括数字高程差分模型（DoD）、云-网格（C2M）法、多尺度模型到模型云的比较（M3C2）法。参考文献[136]中有关于这些技术的概述。

结合UAV数据采集，可将变化探测法用于民用基础设施。例如，Morgenthal和Hallerman使用正射投影（alignedorthomosaics）对挡土墙内的变化进行人工识别，用于平面内变化；使用CloudCompare程序包进行C2C比较，用于平面外变化。Khaloo和Lattanzi利用在不同色彩空间中的像素色调值来辅助探测一座重力坝的重要变化。Jafari等提出了一种测量变形的新方法，即使用直接的逐点距离协同统计抽样将数据完整性最大化。点云变化探测的另一个有趣的应用是有限元模型更新。通过对实验室结构组件的两个点云的对比分析，Ghahremani等用基于视觉的方法自动定位、识别并量化损伤；之后这些信息将用于更新这一组件的有限元模型。当点深度足以被识别的时候，就可以用点云变化探测法。在寻找不会引发足够的几何变化的可视变化时，可以利用图像变化探测法。

虽然遥感卫星图像可以让人们对城市规模的损伤有所了解，但对于私人建筑来说，这种图像的分辨率和视角却阻碍了有用信息的提取。对于来自UAV或地面车辆调查的图像，变化探测可作为损伤探测的先导，以帮助定位可能代表损伤的候选像素或区域。为此，Sakurada等提出了一种方法，即从不同时间点拍下的多视角图像中，利用概率估计的场景深度探测户外场景的3D变化。CNNs也被用来识别城市场景的变化。Stent等提出利用CNN来识别隧道衬砌中的变化，然后再用集群的方法根据重要性将这些变化分级。图8展示的是Stent等方案的原理图。

图8参考文献[147]提到的系统图解。（a）数据捕获硬件；（b）通过在重建参考模型中定位而探测到的变化；（c）样本输出，其中检测到的变化根据外观进行了集群处理

（二）建筑物结构构件识别

建筑物结构构件识别是对建筑物典型构件进行检测、定位和分类的过程，也是实现基础设施自动化检测的关键步骤。建筑物结构构件信息可为原始图片和3D点云数据添加图像和数据语义，这样的图像和数据语义能够帮助人们了解建筑物当前的状态，并能在现场环境中使容易出错的数据保持一致。例如，通过对点云数据设定“柱子”标签，一个点集合可以被识别成单个的结构构件（竣工模型）。在检测施工进度的环境下，竣工模型的柱子可以与在设计阶段开发的3D模型的柱子(计划模型)相对应，从而可以为评估柱子的当前状态做参考。在评估过程中，可以忽略没有被标记“柱子”的点，因为这些点被认为来自不相关的事物或者错误的数据。从这个意义上来说，结构组件的信息是已竣工模型的基本属性之一，用于以有效和一致的方式表示结构的当前状态。

建筑物结构构件识别也为土建结构视觉损伤的自动化评估提供了强有力的支持信息。与竣工模型类似，通过删与建筑物结构互相关联的构件之外的对象上的类似损伤模式(如在树中检测到的裂纹属检测误差)，利用建筑物结构构件的信息可提升自动化损伤检测方法的一致性。此外，为了在大多数现行的结构检测准则中得出安全等级，需要对损伤和出现损伤的结构构件进行联合评估，所以结构构件信息对整个建筑物结构构件的安全评价很有必要（ATC-20、国家桥梁检测标准）。

在实现完全自主检测的过程中，结构构件识别有望成为机器人平台(如UAV)自主导航和数据采集算法的一个组成部分。根据机载摄像机识别的结构构件的类型和位置，自主机器人有望能够规划合适的导航路径和数据采集行为。虽然目前还没有实现结构构件检测的完全自动化，但是在农业领域已有基于视觉的周围环境识别的自动机器人的例子（如TerraSentia机器人）。

1.利用图像数据的启发式结构构件识别

在早期的研究中，人们使用手工制作的图像滤波器和图像启发式方法从图像中提取结构构件。例如，利用线段组识别图像中的钢筋混凝土（RC）柱子（图9）。为了将柱子和其他不相关的线段组进行区分，该方法采用了一个阈值来选择具有预定长宽比范围的近似平行组。该研究的作者用此方法检测了20幅以柱子为主要拍摄对象的图像，从51个柱子中检测出38个，其中7个为检测误差。这种方法虽然简单，但却严重依赖阈值，并且往往无法找到部分闭塞或相对较远的柱子。此外，在此方法中并没有对场景做进一步的了解，任何满足阈值的线段都会被识别为柱子。所以为了改进结果并减少检测误差，高层场景需要以不同的比例进行合并。

图9钢筋混凝土柱子的识别结果

2.利用3D点云数据的结构构件识别

结构构件识别的另一个重要方案是利用可用的密集3D点云数据识别构件。针对使用密集3D点云数据进行结构构件识别，可以采用不同的分割和分类方法来执行。Xiong等研究了一种自动化方法，可以将密集3D点云数据从空间转换为语义丰富的3D模型，该模型由平面墙壁、地板、天花板和矩形开口表示[该过程称为扫描-建筑信息模型（BIM）]。Perez等采用高维特征（语义特征为193维，几何特征为553维）对室内空间进行结构和非结构构件识别。该方法利用提取特征所携带的丰富信息和使用条件随机场执行的后处理，能够准确地标注平面和复杂非平面表面，如图10所示。Armeni等提出了一种针对密集3D点云数据进行过滤、分割和分类的方法，并通过将整个建筑解析为平面构件来演示该方法。

图10Perez-perez等利用密集3D点云数据进行的室内语义分割

Golarvar-Fard等对基于图像的点云与激光扫描自动化性能检测技术进行了详细比较，包括3D重建、形状建模、生成可视化的准确性和可用性。通过比较发现，虽然基于图像的技术并不准确，但它们为可视化及丰富的语义信息的提取提供了巨大便利。Golparvar-Fard等提出了一种自动监测3D建筑元素变化的方法。该方法将无序的照片集合与使用SFM的建筑信息建模相融合，然后对基于体素的场景进行量化。最近，Lu等提出了一种方法，即通过自顶向下的方式从钢筋混凝土桥梁的点云中准确地检测出桥梁的四种构件类型。

本节讨论的3D方法的有效性取决于解决当前问题的可用数据。与图像数据相比，密集3D点云数据以其额外的维度携带更丰富的信息，能够识别形状复杂的结构构件和（或）识别定位精度要求较高的任务。另一方面，为了获得准确且密集的3D点云数据，需要对被检查结构的每个部分以足够的分辨率和重叠方式进行拍摄，这就需要增加数据收集的工作量。此外，离线后处理也是非常必要的，这对应用3D方法进行实时处理任务提出了挑战。对于这种情况，利用图像数据进行基于深度学习的结构构件识别是另一种执行结构构件识别任务的可行的方法。下一节将对此进行讨论。

3.利用图像数据的基于深度学习的结构构件识别

近年来，基于机器学习的结构构件识别方法得到了广泛研究。图像分类是CNNs的主要应用之一，其中单个代表性标签是从输入图像中预估出来的。Yeum等利用CNNs对某公路标志桁架结构的焊接接头候选图像块进行了分类，从而准确地识别出兴趣区域。Gao和Mosalam使用CNNs把输入图像分为合适的结构构件和损伤的结构构件两类。然后，作者根据最后卷积层的输出结果推断出目标对象的粗略位置（弱监督学习；如图11所示，用于结构构件识别结果）。目标检测算法也可用于结构构件识别。Liang采用FasterR-CNN算法，通过自动绘制桥梁组件周围的边界框对其进行检测和定位。

图11弱监督学习的结构构件识别结果

语义分割是解决结构构件识别问题的另一种可行途径。语义分割算法不需要绘制边界框，也不需要根据每幅图像的标签来推断目标的大概位置，而需要输出与输入图像分辨率相同的标签映射。这对于精确检测、定位和分类复杂形状的结构组件尤其有效。为了得到与高层场景结构一致的高分辨率桥梁构件识别结果，Narazaki等研究了三种不同配置的FCNs：①原始配置，即直接从输入图像预估标签映射；②平行配置，即根据高层场景类和平行运行的桥梁构件类的语义分割结构预估标签映射[图12（a）]；③序列配置，即根据场景分割结果和输入图像预估标签映射[图12（b）]。桥梁构件识别结果如图13所示。除了第三张和第七张图像（见图13中的Inputimage），所有的配置都能够识别结构构件，包括远距离的柱子或被部分遮挡的柱子。在非桥梁图像中可观察到显著的差异（图13中最后两幅图像）。对于原始配置和平行配置，在建筑物和路面像素中发现了检测误差。相反，在顺序配置的FCNs没有发现错误。（表1给出了非桥梁图像检测结果中的误差检测率）。因此，顺序配置能够有效地将高层场景一致性应用到桥梁构件识别中，以便提高复杂场景图像识别的鲁棒性。

图12网络配置增强场景级一致性

图13桥构件识别结果示例

表1九类场景的误差检测率

（三）结构级一致性的损伤检测

Anil等确定了一些信息需求，以适当地表示地震后结构墙体的视觉损伤信息，并根据17个不同损伤敏感性的损伤参数将其分为5类。这些信息用来描述参考文献[169]中以BIM为基础的方法，帮助工程分析自动引入一些启发式方法，以结合强度分析和视觉损伤评估信息。Wei和Kasireddy详细回顾了建筑和基础设施管理3D成像技术的现状及其面临的持续和紧急的挑战。

Hoskere等利用FCNs对损伤进行划分，并构建构件的图像信息，用于生成类似于检测的语义信息。这个过程使用了三种不同的网络：一种用于场景和建筑物（SB）信息，一种用于识别DP，另一种用于识别DT。SB网络的平均准确率为88.8%，DP和DT联合网络的平均准确率为91.1%。这种方法能够成功地识别出损伤的位置和类型，也能识别出一些关于SB存在的场景。与以前的实验相比，这种方法适用于更普遍的环境。如图14所示的多幅图像定性结果，其中最右栏显示的是对准确检测和误报及漏报的评价。

图14参考文献[128]中的定性结果

（四）小结

损伤探测、变化探测和结构构件识别是实现建筑结构自动化检查的关键步骤。虽然建筑结构检查为评估基础设施状况提供了有价值的指标，但往往还需要对建筑结构响应进行更多的定量测量。为了实现建筑结构状态评估，还需要用基于视觉的技术对位移和应变等物理量进行测量。本文下一节将会介绍使用视觉技术的民用基础设施的监测应用。

四、监测应用

监测的目的是通过测量加速度、应变和（或）位移等物理量，定量了解民用基础设施的当前状态。监测工作通常使用有线或无线接触式传感器来完成，尽管许多应用程序都可以使用接触式传感器有效地收集数据，但这些传感器的安装成本往往很高，维护起来也很困难。基于视觉的技术为非接触式方法提供了优势，克服了使用接触式传感器带来的一些问题。如第2节所述，能够执行测量任务的关键计算机视觉算法是光流算法，它能估算两个图像帧之间每个像素的平移运动。光流算法是一种通用计算机视觉技术，它通过优化目标函数，如误差平方和（SSD）、归一化互相关（NCC）标准、全局代价函数或局部和全局综合函数，将参考图像中的像素与不同视角下同一场景的另一个图像的对应像素相关联。参考文献[182]对不同代价函数和优化算法的方法进行了比较。本节其余部分讨论了基于视觉的民用基础设施监测技术研究。本节主要分为两小节：静态应用和动态应用。

（一）静态应用

基于视觉技术的民用基础设施静态位移和应变的测量通常采用数字图像相关（DIC）技术进行。根据Sutton等的研究，DIC是指“一种非接触式方法，它能获取物体的图像，以数字形式存储图像，并进行图像分析以提取全部形状、变形和（或）运动测量值。”（）除了估算图像平面内的位移场，DIC算法还包括计算二维（2D）平面内应变场（2DDIC）、平面外位移和应变场（3DDIC）、体积测量（VDIC）的不同后处理步骤。目前已有高度可靠的商业DIC解决方案（如VIC-2D™和GOMCorrelate）。有关一般DIC应用的详细介绍，请参阅参考文献[186,183]。

DIC方法已被应用于土木工程中位移和应变的测量。Hoult等在单轴载荷下使用了钢样品，将结果与应变计测量结果进行比较，评估了2DDIC技术的性能（图15）。然后，研究人员提出了一种补偿平面外变形影响的方法。研究人员还使用钢和钢筋混凝土梁试样测试了2DDIC技术的性能，通过应变计得到了应变的理论值和应变测量数据。在参考文献[189]中，以3DDIC系统为参考，测量了实验室试件的静态位移。这些试验获得了位移的亚像素精度，而且应变估算值与应变计测量值和理论值一致。

图15Hoult等进行单轴测试所使用的钢板试样

DIC方法也被应用于民用建筑结构的位移和应变的现场测量。McCormick和Lord采用2DDIC技术测量了静载4辆32t卡车的高速公路桥面的垂直位移。Yoneyama等使用2DDIC技术估算了负载一辆20t卡车的桥梁的挠度。作者利用位移传感器的数据评估了有和没有人工模式的挠度测量的准确性。Yoneyama和Ueda采用2DDIC技术测量了工作荷载下的桥梁挠度。Helfrick等采用3DDIC技术进行了全场振动测量。Reagan使用携带立体摄像机的UAV，将3DDIC技术应用于桥梁变形的长期监测。

DIC方法在土木工程领域的另一个具有前景的应用是裂缝映射，在此方法中，3DDIC被用于提取具有大应变特征的裂纹区域。Mahal等成功地提取了RC试样上的裂缝，Ghorbani等将这种裂缝映射方法推广到了循环荷载作用下的全尺寸砌石墙试样中（图16）。所得到的裂缝图不仅对分析实验室测试结果有一定的参考价值，而且对增加结构检测的信息量也很有用。

图16使用3DDIC技术制作的裂缝图。（a）第一次裂缝；（b）最大载荷；（c）极限状态。红色部分相当于+3000μm·m-1

（二）动态应用

1.实验室试验

图17Min等提出了一种基于智能手机的位移测量系统，包括长焦镜头和高对比度标记。B：蓝色；G：绿色；P：粉色；Y：黄色

Dong等提出了一个多点同步测量结构动态位移的方法。Celik等评估了几种不同的基于视觉的技术，用以测量结构上的人体负荷。Lee等提出了一种位移测量方法，该方法是为实地测试量身定制的，且在强光下具有较强的鲁棒性。Park等证明了基于视觉的图像与加速度数据融合在扩展动态范围和降低信号噪声方面的功效。视觉算法的应用目前已经扩展到了实验结构的系统识别中。Shumacher和Shariati提出了虚拟视觉传感器的概念，利用虚拟视觉传感器可进行结构的模态分析。Yoon等利用一个Kanade-Lucas-Tomasi（KLT）追踪器识别了实验室规模的六层建筑模型（图18）。Ye等在一个小尺寸模型的拱桥上进行了多点位移测量，并利用线性可变差动变压器（LVDTs）对测量结果进行了验证。Abdelbarr等使用廉价的RGB-D传感器测量了3D动态位移。Ye等在振动台上进行了一个研究，确定了影响基于视觉测量的系统性能的因素。FengD和FengMQ利用上采样的互相关性实现了一种模板追踪法，获取了振动结构上的多点位移。研究人员还利用UAV捕获的视觉数据对实验结构进行了系统识别。这些作者还提出了一种使用UAV在背景中结合静止坐标来测量动态位移的方法

图18使用消费者级别相机进行基于视觉结构的无目标系统识别方法。（a）目标追踪截图；（b）从不同传感器中提取的模态形状。GoPro和LGG3是测试中所使用的相机

2.实地验证

在过去几年里，实验室基于视觉的振动测量技术的成功已经带来了许多实际应用。最常见的应用是测量全尺寸桥梁结构的位移，包括测量桥面板、桁架和机库电缆等不同构件的位移。基于相位的方法也被用来估算天线塔的位移和频率，从而获得桁架桥结构的部分振型。

图20利用计算机视觉技术测量铁路桥梁位移。（a）铁路构件的光学追踪图像；（b）基于视觉的位移测量与FE模拟估测的比较。FEsim：有限元模拟

Chen等研究了载荷估算的一个有趣应用，他们自动检测通过桥梁的车辆类型，并将这些车辆类型与从桥梁某一横截面的动态称重系统中得到的信息相结合，使用计算机视觉技术识别了车辆载荷在通过桥梁时在空间和时间上的分布。与以往只能在桥梁某一横截面测量车辆荷载的方法相比，该系统能够精确地测定整座桥梁的荷载。

五、基于视觉的民用基础设施自动化检查和监测所面临的挑战

尽管近年来研究界取得了重大进展，但在使用基于视觉的技术完全实现自动化SHM之前，必须克服许多技术障碍。其中主要的困难在于将基于视觉的方法所提取的特征和信号转换成更具可操作性的信息，从而有助于更高层次的决策。

（一）自动化结构检查需要对损坏情况和背景进行全面了解

执行视觉检查的人类具有非凡的感知能力，这是视觉和深度学习算法难以复制的。训练有素的检查员能够识别出对结构整体健康有重要意义的区域（如关键的结构构件、结构上明显的损坏等）。当结构受损时，根据损坏的形状、大小和位置，以及损坏部件的类型和重要性，训练有素的检查员可以推断出损坏结构的重要性。检查员能够理解多种损坏存在的影响。因此，虽然目视检查已经取得了重大进展，但仍然需要更高精度的损伤检测和构件识别。此外，关于解释已识别损伤的结构意义、将局部信息与全局信息同化以进行结构级评估这类研究，几乎鲜有文献提及。解决这些问题对于实现基于视觉的全自动检查至关重要。

（二）深层网络的普遍性取决于数据的普遍性

从推断数据中提取的特征如果与训练数据存在显著差异，那么训练后的DCNN模型往往会表现不佳。因此，经过训练的深层模型的质量直接取决于基础数据集。DCNN模型的感知能力对诸如凹槽或关节等类似损伤的特征还不具有鲁棒性，因此在推断期间无法区分这些纹理。为提高DCNN对自动检查的感知能力，就必须克服用于检测结构损坏的数据集的有限性。

（三）检查的人类感知需要理解顺序视图

（四）位移通常很小并且难以捕捉

对于监测应用，最近的工作成功地证明了用基于视觉的方法来测量模态信息以及实验室和现场结构的位移和应变是可行的。另一方面，对现场民用基础设施的精确位移和应变的测量很少是直接测得的。现场试验中预期的位移和应变范围通常小于实验室试验中的位移和应变范围，因为现场的目标结构会对操作荷载做出反应。在现场环境中，重要结构构件的可访问性通常是有限的。在这种情况下，无法达到高质量测量的最佳摄像机位置，也无法放置引导位移测量的标记。对于静态应用，一般通过人为添加表面纹理（如斑点图案）在DIC方法中进行图像匹配，然而这对于可访问性有限的结构而言也很困难。为了在这种操作情况下应用基于视觉的静态位移/应变测量，在硬件和软件方面都需要进行更深的研究和开发工作。

（五）照明和环境影响

基于视觉的方法非常容易受到与能见度相关的环境变化的影响，如下雨和起雾。尽管上述问题难以规避，但其他环境因素，如光线、阴影和大气干扰的变化是可以归一化的，尽管需要做更多的工作来提高鲁棒性。

（六）大数据需要大数据管理

六、仍在进行的自动化检查工作

（一）结合背景以生成状态感知模型

如第5.1节所述，了解损害发生的背景是进行自动化和高级别评估以提供详细检查判断的关键。为了解决这个问题，Hoskere等提出了一种新的程序，其中有关结构类型、各种构件以及每个构件的状态信息被合并为一个单独的模型，即状态感知模型。此类模型可被视为类似于建筑和设计行业中使用的竣工模型，但在此处被用于检查和维护。状态感知模型是自动生成的注释，可显示结构上存在的视觉缺陷。根据所考虑的特定检查应用，所需的状态感知模型的保真度也各不相同。与直接使用图像相比，构建状态感知模型的主要优点是结构的背景和损坏的规模是很容易被识别的。此外，全局3D几何信息对评估过程也有帮助。该模型作为一个方便的实体，可以快速、自动地记录结构上可见的缺陷。

Hoskere等提出了用于生成灾后快速自动检查的状态感知模型框架，如图22所示。3D网格模型由UAV结构测量中的多视图立体生成。然后在同一组图像上进行基于深度学习的条件推断，从而对损伤和建筑环境进行语义分割。使用UV映射将生成的标签投影到网格上（将2D图像投影到3D模型的3D建模过程），生成一个在每个单元上叠加了平均损伤和背景标签的状态感知模型。图23显示了在2017年9月墨西哥中部地震期间，使用此程序为受损的建筑物开发的状态感知模型。

图22生成灾后快速检查的状态感知模型框架

图232017年9月墨西哥中部地震中受损建筑的状态感知模型

（二）使用基于物理的逼真图形模型生成合成标记数据

如第5.2节所述，对于针对自动化检查的深入学习技术，由于缺乏大量标记数据，使其难以在各种结构和环境条件下推广培训模型。每一种土木工程结构都是独一无二的，这使得损伤识别更具挑战性。例如，涂在建筑物上的各种颜色（这一参数肯定会对损伤检测的结果产生影响，特别是对于腐蚀）；因此，在不考虑这些问题的情况下，开发用于损伤检测的通用算法是困难的。然而，更严重的问题是，因为受损结构并不常见，所以从受损结构中获取高质量数据也相对困难。

3D建模、模拟和渲染工具（如Bler）可以更好地模拟现实环境的影响。结合有限元模型的变形网格，这些工具可用于创建受损结构的图形模型。了解结构的损坏情况需要背景感知。例如，同一种结构不同位置的相同裂纹可能对结构的整体健康产生不同的影响。同样，桥梁中的裂缝必须与建筑物墙壁中的裂缝区别对待。Hoskere等提出了一种新的框架（图24），即使用基于物理的结构模型来创建具有代表性的受损结构的合成图形图像。该框架主要有五个步骤：①使用参数化的有限元模型对各种形状、尺寸和材料的代表性结构进行结构建模；②利用非线性有限元分析方法对生成模型的结构热点进行识别；③应用材料图形特性对生成模型进行真实绘制；④使用有限元模型中的热点生成程序损伤；⑤利用生成的合成数据训练用于评估的深度学习模型。

图24基于物理的图形生成框架，用于使用深度学习进行自动评估

基于物理的图形模型可用于生成各种各样的损伤场景。由于生成的数据类似于真实数据，因此可以确定用于识别重要损伤和结构特征的深度学习方法的局限性。这些模型在多个环境层面都提供了高质量的标记数据，包括：①整体结构属性，如楼层和间隔的数量以及结构系统；②结构和非结构构件以及关键区域；③不同类型的局部和全局损坏，如裂缝、剥落、薄弱层和柱的屈曲，以及其他如坠落部分等危险。这种更高级别的环境信息有望提供更可靠的自动检查，而对局部损坏图像进行训练的方法却难以达到该效果。通过使用基于物理的客观模型作为训练数据的基础，而不是使用主观的手工标记数据，可以大大减少现场检查人员的固有主观性。

对利用合成数据进行基于视觉的检测应用的研究一直以来都很有限。Hoskere等创建了一个基于物理的人字门图形模型，并训练深度语义分割，以识别合成环境中门的重要变化。网络训练数据是使用基于物理的图形模型生成的，包括裂缝和腐蚀等缺陷，同时适应照明的变化（图25）。

图25基于深度学习的变化探测

目前正在进行一项研究，目的是使以合成数据为训练对象的成功的深度学习模型同样适用于实际数据。

图26参考文献[186]中使用的网络架构图

在该研究中测试了两种类型的RNN单元：简单的RNN单元和卷积长短期记忆（ConvLSTM）单元。在简单的RNN单元中，前一时段的输出增大了现在时段的输入，并采用了ReLU激活函数的卷积。另外，ConvLSTM单元被插入到架构的RNN中，以此有效地模拟长期模式。

图28中的示例结果显示，当FCN不能正确识别桥梁构件时，重复单元仍然有效。这些结果表明，即使全局结构的视觉线索暂时不可用，ConvLSTM单元与预先训练的FCN相结合还是一种有效的桥梁构件自动识别方法。基于单个图像的FCN的总像素精度为65.0%。相比之下，简单RNN和ConvLSTM单元的总像素精度分别为74.9%和80.5%。数据集、训练和测试的其他细节见参考文献[233]。

图28示例结果。（a）输入图像；（b）FCN；（c）FCN-简单RNN；（d）FCN-ConvLSTM

目前，这项研究正被用于开发地震后交通基础设施的快速检测策略。

七、结论

本文概述了基于计算机视觉的民用基础设施检查和监测的最新进展。目前，人工目视检测是评估土木基础设施状况的主要手段。针对民用基础设施检查和监测的计算机视觉技术是一种自然的进步，人们可以轻易地用它来帮助并最终代替人工目视检测，同时，它还提供了新的优势和机遇。然而，图像数据的使用可能是一把双刃剑；尽管每幅图像中都存在着丰富的空间、纹理和背景信息，但从这些图像中提取可操作信息的过程是有难度的。从深度学习到光流，研究界已经成功地证明了视觉算法的可行性。本文讨论的检查应用分为以下三类：表征局部和全局可见损伤、检测参考图像的变化以及结构构件识别。自动化检测的最新进展源于以数据驱动检测替代启发式方法，在这种方法中，通过对大量数据集进行训练来建立深层模型。监控应用程序包括静态和动态两种。全面实地测量技术的应用以及实验室技术在全面基础设施中的推广为该方法进一步的发展提供了动力。

本文还介绍了研究界在实现基于视觉的自动检查和监测方面面临的关键挑战。这些挑战主要在于将基于视觉方法提取的特征和信号转换为可操作的数据，从而在更高的层次上帮助决策。

注：本文内容呈现略有调整，若需可查看原文。

改编原文：

,VedhusHoskere,onitoring[J].Engineering,2019,5(2):199-222.

注：论文反映的是研究成果进展，不代表《中国工程科学》杂志社的观点。