引言
深度学习”是我们在遇到“检测机器人”时经常遇到的一个技术术语。本文将通过超维技术解释“深度学习”在检测机器人中的应用。
1概述
深度学习(DL)是一种基于数据表示学习的机器学习算法。它可以发现大数据中的复杂结构,并使用反向传播来指导机器如何计算网络前一层的表示,从而改变每一层的内部参数。深度学习的目的是赋予机器人与人类相同的分析学习能力,因为它可以增强机器人的感知、决策和控制能力。具体来说,对于超维智能检测机器人,主要涉及对象检测、对象分类和特征匹配算法。通过综合利用上述算法模型,超维智能巡检机器人可以准确感知服务器机柜上报警指示灯和设备的状态信息。同时,根据不同型号的组合,超维智能巡检机器人还可以应用于配电室服务器,检测配电柜上旋转开关、压板开关、LED、LCD等组件的位置和状态信息。下面是每个型号的详细介绍。
2、物体检测模型
目标检测的基本任务是区分图像中检测到的目标的类别,并使用矩形边界框来确定目标的位置和大小,并提供相应的置信水平。作为计算机视觉领域的一个基本问题,目标检测也是许多计算机视觉任务的基础,如图像分割、目标跟踪和图像描述。目前主流的深度学习对象检测算法有两种:一种是基于区域建议的两阶段对象检测算法,如R-CNN、SPP-Net、FastR-CNN、Faster-R-CNN、FPN、Mask R-CNN等;另一种是一种基于回归分析的单阶段对象检测算法,如YOLO系列、SSD系列、RetinaNet等。Class 2的基本架构图如下图所示:
(a) 两阶段目标检测算法

(b) 单级目标检测算法
两级目标检测算法发展迅速,检测精度不断提高。然而,它们自身的架构问题限制了检测速度。单级目标检测算法和两级目标检测方法的最大区别在于,前者没有候选区域推荐阶段,训练过程相对简单。它可以直接确定目标类别,并在一个阶段内获得位置检测框。
考虑到现场部署的计算能力和检测速度,超维技术采用单级目标检测算法YOLO v5。YOLO系列从v1到v5已经发展了5代,最新版本是YOLOv5 6.0。YOLO v5可以说是用于目标检测的各种增强数据的巅峰之作,包括输入端的马赛克数据增强、自适应锚框计算、自适应图像缩放、骨干网中的焦点和CSP结构、颈部的FPN+PAN结构以及训练过程中的GIOU_Loss。
超威科技在YOLOv5的基础上,采用以下技术对模型进行了改进,以适应服务器机房指示灯的小目标模型,有效提高了目标的检测精度。
(1) 修改模型的颈部,用bi-FPN替换当前的PAN网络,以从图像中提取详细信息。
(2) 使用分割图像进行检测的方法。检测时,将图像划分为9个图像,每2个图像之间的重叠区域为10像素,以防止一个目标被划分为两个进行检测。在完成9幅图像的检测后,执行非最大抑制以去除重叠的检测框,并获得一幅图像的探测结果。
(3) 将使用两张照片进行检测,一张用于长时间曝光,另一张用于短时间曝光。根据方法(2)测试两张照片,然后进行另一次非最大抑制,以获得最终的灯检测结果。
(4) 使用α-OU技术,改进了原始YOLO v5的IOU损失函数,以提高小目标的损失权重,降低因区域重叠而错过检测的概率。
(5) 将骨干网第四层输出的特征图与金字塔特征提取网络的特征图相结合,输出P2检测头,提高了图像检测模型的分辨率,增强了细微特征纹理的提取,减少了小目标的漏检。

小指示灯检测结果
YOLO v5经过改进后,对指示灯上小目标的检测精度已超过97%。
3、目标分类模型
图像分类任务是计算机视觉中的核心任务,旨在根据图像信息中反映的不同特征来区分不同类别的图像。从一组已知的类别标签中为给定的输入图像选择一个类别标签。图像分类模型主要应用于检测任务中目标的状态分类。通过对象检测模型后,将检测到的目标截图输入到对象分类模型中,实现目标状态的分类。例如,识别指示灯的颜色、开关的状态和旋转开关的档位。经典的基于深度学习的图像分类方法包括AlexNet、VGG、GoogLeNet、ResNet等。这些模型的模型深度相对较低,泛化能力较弱。
为了应对现场视角、照明、比例、遮挡、变形、背景杂波、类内变形、运动模糊和不同类别等问题,超维技术使用CSWinTransformer模型来实现图像分类。CSWin Transformer是基于2021年提出的Transformer的图像分类模型。与传统的卷积神经网络相比,Transformer更多地了解特征之间的相互关系,具有更好的通用性,并且不完全依赖于数据本身;Transformer不仅关注局部信息,还具有从局部到全局的扩散机制,以找到更合适的特征表达式
CSWinTransformer采用十字形的自我注意机制,可以同时计算水平和垂直方向的注意权重。此外,CSWin Transformer还采用了局部增强的位置编码,与之前的位置编码相比有两个优点:
(1) 能够适应不同尺寸的输入特征;
(2) 具有更强的局部假设偏差。使用CSWin Transformer的另一个原因是,与其他基于Transformer的图像分类模型相比,由于使用了十字形的自关注机制,该模型的参数和计算复杂度更小。模型的架构如下:

使用该目标分类模型,在不同光照和角度下,颜色误分类率在1%以内,可以满足现场检查的需要。
4、特征匹配
特征匹配是指对具有相同或相似属性的两幅图像中的内容或结构进行逐像素识别和对齐。一般来说,要匹配的图像通常来自相同或相似的场景或目标,或具有相同形状或语义信息的其他类型的图像对,因此具有一定的可匹配性。特征匹配在检查任务中的主要功能是确定每个小指示灯的ID,并通过将检查灯与参考灯进行匹配来阐明其功能。当服务器指示灯产生报警信号时,可以通过每个指示灯的ID快速获得报警信息。
经典的特征匹配算法有SIFT算法和ORB,但SIFT算法在图像上进行全局特征点检测需要很长时间,导致算法运行速度慢,匹配结果不理想。ORB算法运行速度快,但其描述符不具有尺度不变性,导致匹配性能不理想。因此,我们使用SuperPoint提取图像特征,并使用2020年提出的SuperGlue特征匹配算法来匹配服务器的小指示灯。
模型的总体架构如下图所示:

(a) SuperPoint从图像中提取特征点

(b) 基于特征点的SuperPoint匹配

(c) 匹配渲染(左侧为参考照片,右侧为检查照片)
基于SuperPoint和SuperGlue的匹配算法在现场测试中实现了98%以上的匹配精度。