基于深度学习的工程图纸信息识别与应用

摘要

工程图纸是机械、建筑等行业重要的信息来源，数量多、内容繁杂、包含的知识很难进行系统整理和提炼；在施工过程中修改次数多、手写更改现象也非常普遍；计算机录入效率低、成本大；后续文档查阅对专业知识积累要求高等导致复用率低。基于以上因素，工程图纸的自动分析处理，在工程领域具有不可估量的作用。

本文主要研究实现一个基于深度学习的工程图纸信息服务平台，包含目标检测、文本检测、汉字识别、信息识别系统四个设计部分。主要研究内容如下：（1）整体设计。本文设计了工程图纸信息识别的整体框架，系统预处理样本图纸，包括二值化、灰度化等，然后对处理后的图像使用YOLOv3进行目标识别，CTPN进行文本检测，利用CRNN对输入检测样本进行汉字识别。

（2）目标检测部分设计。本文的目标检测旨在利用深度学习模型在目标特征提取上的优势，采用基于回归的YOLOv3的目标跟踪算法，同时结合目标颜色直方特征和局部二值模式直方特征进行目标筛选，这样也就可以跟踪目标。

（3）文本检测部分设计。本文文本检测采用了CTPN方法，先对VGG-16模型进行训练，应用ImageNet

数据集，完成训练后，得到的网络参数作为CTPN 网络的初始权重。然后采用随机方法对本文提出的循环层以及输出层的权重完成初始化。

（4）汉字识别部分设计。本文采用CRNN进行汉字识别。CRNN包括了卷积层、循环层以及转换层。卷积层CNN提取特征序列，处于最顶层，向循环层输入，提取上下文特征，最后转换层CTC Loss作为网络优化目标函数，解决BLSTM的输出与标签对不齐的问题，对预测的序列进行最终的序列识别结果。

（5）信息识别系统部分。本文设计的工程图纸信息识别系统是基于B/S架构的系统，使用Java Web来开发工程图纸信息识别系统来对外提供识别服务请求，并使用SpringMVC框架来开发整个系统。

关键词：深度学习；工程图纸；YOLOv3；CTPN；CRNN

第一章绪论

1.1研究背景及意义

工程图纸广泛应用于机械、建筑等行业，作为非常重要的信息来源[1]。在计算机中录入图纸的关键信息面临诸多问题，由于工程图纸量大，需要人工审阅，导致录入效率不高，面临着相对较高的成本[2]；并且在施工过程中图纸来回更改次数多、手写局部更改现象也非常普遍；加上图纸中包含的知识

很难经过人工分拣进行系统的整理和提炼，大多处于零散、重复状态；后续文档查阅对专业知识积累要求高、需从大量图符中人工搜索等因素导致了工程图纸复用率低、查阅困难。基于以上因素，工程图纸的自动分析处理，在工程领域具有不可估量的作用。

工程图符是工程图纸的主体，工程图纸自动分析处理在很大程度上就是工程图符的自动分析处理，它源自于人工智能等技术理论。工程图纸典型图元识别主要面向基础符号、专业符号。前者存在于工程图纸中，如钢筋等符号[3]。图纸中，由于图文黏连，字符识别是其中一个难点。分析这些工程字符通常需要应用一套数字图像处理方法来检测和分类符号及其他组件。

OCR可以智能识别以及判断目标图像。获取具有文本的图像，实现数字化识别。从模式识别的角度来说，其中比较重要的就是OCR，涉及语言学知识等，使得很多现实问题得到解决。当前OCR研究侧重于正确率的提升。当前阶段，OCR 技术可以有效的识别某类图像，在传统图像处理方法的基础之上，在实际应用中有效的结合于神经网络，这样可以保证超过90%的识别率，不过在复杂识别环境中（例如本文研究方向：工程图纸的字符识别），如何精准定位、高效率准确提取字符的特征，仍具有一定困难。

综上所述，鉴于工程图纸在字符识别领域的重大意义以及目前技术的薄弱，本文重点研究如何识别矢量工程图纸字符，字符识别依托于计算机来实现，形成知识图谱，方便设计人员学习、分类和分析，有利于工程图纸复用。

1.2 国内外研究现状及发展趋势

光学字符识别研究现状

1929年，Tausheck提出了光学字符识别。此后，此技术取得了相当大的进展[4]。目前OCR技术对专一类型字符识别率高，但对于形状杂乱、有大量噪声的

字符，需要事先优化，才能有效识别。识别流程分为定位和识别两个部分。字符定位算法不具有普适性，要提高识别效率，首先要提高字符定位系统的性能。因此，许多研究机构专注于文本领域的识别与应用，重视开发字符定位系统，如ICDAR组织的RCTW，最近几年（包括2019年）的竞赛任务均围绕端到端文字识别展开[5]。而端到端的思想，是本文的中心思想。

.1字符定位研究现状

光学字符定位是指在图像中运用某算法，找到字符在图像中的位置。定位算法可分为四类：根据连通域进行定位、纹理特征定位、边缘特征定位和神经网络定位[2，5，6]。

基于连通域的定位是假设文本具有相同的亮度范围或颜色，将图像分割成许多细小的区域块，提取连通成分并分析，依据先验知识定位整个文字区域。基于连通域的定位优点是定位速度快，缺点是必须对图像进行噪声和背景处理。为提高准确率，通常与神经网络方法结合使用。颜色聚类技术处理彩色

图像[7-9]，二值化处理灰度图像[10][11]。张俊峰等[12]在筛选车牌候选区域的过程中，主要参考的指标有两个，分别是长宽比以及白色比例，最终也就实现了定位。

基于纹理的定位是将图像文本假设为一种特殊的纹理，提取分析笔画结构的纹理特征，进而判定文本区域的方法。很多方法均可以表示图像纹理：频谱分析法等。以纹理为核心来进行定位，噪声对整个过程影响不大，尽管图像拥有着复杂的背景，实际操作中依然可以定位；所存在的不足：边缘轮廓在定位的过程中无法区分于定位区域，很难确定边界，图像、文字拥有着不同的大小，操作起来难度要更高，算法不够简单，效率不高。Wang G等[13]在研究中实现了对非局部模型的扩展，最终所呈现出的模型形式为多通道模型，同时对该模型进行分析可知，Tikhonov规则项也包括了在其中，进而也就阐述了Mumford-Shah-MT模型；杨振宇[14] 等对于彩色图像层与层间所存在的耦合，该学者尝试采用多种途径去优化，其中效果比较显著的就是多通道全变差规则项，该学者在研究中还尝试去描述纹理图像特征，为了真正的做到这一点，该学者主要采用了非局部算子，最后，能够建立一个应用全变差、变分法，具有非局部、多通道特点的Mumford-Shah模型（即非局部Mumford-Shah多通道全变差变分模型）。

基于边缘特征定位是由于背景和文本存在着非常高的对比度，字符拥有着十分陡峭的边缘，除此之外还拥有着大量的信息，通过判断边缘变化的强烈程度进

行定位检测。基于边缘特征定位的优点是速度快，时间复杂性低。缺点是仅适用于简单背景，在边缘对比度与外界较低的情况下不适用；对阈值精度有较高要求。为提高准确率，经常在实践应用的过程中结合于支持向量机SVM[5] 。P Lu[15]等人主要对字符分割算法进行了全方位的研究，为了更好的识别字符，学者们在算法上主要采用了SVM分类算法，且结合于BP神经网络。sobel[16]属于主流边缘检测算子，卓炜、齐春[17]在进行研究时，以输入彩色图像为基础，将投影信息和检测、分割多通道边缘结合起来进行定位。薛凌云、朱志强[18]在研究中的过程中将颜色有效的结合于边缘信息，后续则需要对车牌底色区域进行确定，此时主要采用的模型就是HSV模型，而候选车牌区域的获取则主要采用了边缘检测方法，将两个区域进行有效的融合，紧接着需要做的就是连通域分析和去掉伪区域，这样也就获得了精确定位的车牌。

基于神经网络的定位训练大量标注好的数据并提取其中不变的特征，识别文本区域。基于神经网络的定位[19]时，选大小为M*N的滑动窗口，在图像上下移动，将窗口区域进行神经网络运算，并与阈值比较，判断窗口内有无文本。基于神经网络的定位优点是不需对图像进行噪声和背景处理，缺点是依赖大量数据样本，窗口大小选择情况影响运行速度。

.2字符识别研究现状

字符识别是OCR的最后一步，正确率是系统成功建立的关键[20]。字符识别运用数学算法进行识别，分为模式匹配方法、特征识别方法[23]、人工神经网络识别方法[24]。

基于模板匹配的字符识别是最经典的方法，将待识别字符变换为样本字符大小，通过计算逐个比对待识别字符和样本，将最类似样本的类别作为待识别字符的类别。优点是算法简单、不需要提取特征向量，识别速度较快，实时性比较好；缺点是需要高分辨率，运行过程会造成大量系统资源浪费，影响识别速度，并且在类别较多、样本较大的情况下识别效果差。孙守勇等[21]在研究中对传统模板匹配算法进行了优化，最大的改变就是将模板差异化特征添加到其中，保证了在更短时间内完成匹配，可以更加精准的识别，实现更高效的运行。崔文学等[22]在分割环节为了让抗干扰能力进一步的强化，除了应用垂直投影，还采用了模板匹配，这使得采集车牌可以在更加复杂的环境中进行。张俊峰等[12]在实施定位的过程中主要结合于颜色特征，而对于字符的分割则主要采用了垂直投影来实现，最后

依托于模板匹配识别字符。凌翔等[25]对字符样本进行了测试，他们在研究中，从全局出发，以其字符图像重合度为核心，针对性的设计了函数进行模板匹配，以求达到更好的效果。

以特征为核心的字符识别最为关键的就是对合适的字符特征进行选择，而后续对于字符的识别则主要依托于分类器来实现。根据结构特征识别，分为学习和识别两个步骤，适用与相近字符和字形差异大的字符。首先学习字符结构，比如骨架特征、字根等，提取基元特征，使用形式语言描述基元的文法规则，如孔洞特征等，最后用文法规则判断基元特征进行识别。优点是可以有效提取结构特征从而识别相近字符；缺点是系统资源占用大，处理速度慢。包玉树[26]等对字符二值图像通过LIE算法降维后

将像素与结构特征结合，最后在SVM的基础之上来识别字符特征。鲁超等[27]对识别算法进行了详细的说明，首先需要进行的操作就是缩放待检字符区的尺度，用模板匹配识别3个候选字符，最后根据区域密度特征矢量筛选最终字符。

基于人工神经网络的识别即模拟人类大脑功能识别字符图像，提取字符特征是识别的重点。分为两种方法：第一种方法是根据人类经验提取特征，后续则需要展开神经网络训练，进而也就可以识别字符；第二种方法为将字符进行直接输入，神经网络接下来就可以展开训练学习，这样就可以真正的提取字符特征，在识别完成后，最后将所识别的字符输出。优点是容错性强，可以处理复杂情况下的模糊字符；缺点是系统规模大、学习速度较慢、泛化能力弱、策略要根据不同情况及时更改。

卷积神经网络研究现状

人工神经元网络的模型发展，经历了MP模型[28]、单层感知器模型[29]、浅层机器模型（如SVM[30]）、以及机器学习研究中的一个新的领域——深度学习模型[31]。AE[31、32]、RBM[33、34]、DBNs[35]、CNNs[36、37]等为典型的主流的深度学习模型。

LeCun[37]在研究中阐述了卷积神经网络，卷积层以及池化层主要采用了交替设置的方式，其他构成部分具体为全连接层以及输出层，在卷积层中，所有的神经元均可以实现局部连接，紧接着就能够很大程度的减少训练参数，进一步实现在权值方面的共享，从而真正的实现高效迭代，在图像识别中得

到有效的应用。Lin[38]等人在研究中尝试对卷积核进行替代，此时所采用的就是微型的多层神经

更多推荐

识别,字符,进行,特征,定位,图像,工程图纸