1.School of Computer Science and Technology (National Pilot Software Engineering School),Beijing University of Posts and Telecommunications,Beijing,100876,China
2.State Key Laboratory of Networking and Switching Technology,Beijing University of Posts and Telecommunications,Beijing,100876,China
3.China Resources Digital Co. , Ltd, Guangzhou,518049,China
扭曲的文档图像会干扰文档图像的光学字符识别(Optical Character Recognition,OCR).为了对扭曲形变的文档图像进行矫正,提高扭曲文档识别的正确率,基于目标检测与分割的网络,提出文档图像的边缘检测方法,使用贝塞尔(Bezier)曲线拟合文档图像的边缘曲线,通过目标检测的算法回归Bezier曲线的控制点.将文档图像的边缘检测转化为边缘曲线Bezier控制点的回归,使用文档的边缘点计算扭曲文档矫正后的矩形模板,然后将文档图像通过薄板样条插值(Thin Plate Spline,TPS)算法重映射到矩形模板中,完成文档的矫正.实验结果表明,提出的矫正方法能够对扭曲文档进行精确的边缘提取,和其他算法相比,经该算法矫正后的文档图像,其OCR的正确率有较大的提升.
关键词:目标检测
;
贝塞尔曲线
;
文档图像矫正
;
光学字符识别
;
薄板样条插值
Abstract
Distorted document images interfere with optical character recognition (OCR) of document images. To correct distorted document images and improve the correct rate of distorted document OCR recognition,this paper proposes an edge detection method for document images based on the object detection and segmentation network,uses Bezier curves to fit the edge curves of document images,and returns the control points of Bezier curves through the object detection algorithm. Convert the edge detection of the document image into the regression of Bezier control points of the edge curve,use the edge points of the document to calculate the rectified rectangular template of the distorted document,and then remap the document image to the rectangular template through the thin plate spline algorithm to complete the correction of the document. Experimental results show that the proposed correction method accurately extracts the edges of distorted documents. Compared with other algorithms,the corrected document image has a greater improvement in the accuracy of OCR.
DocUNet[11]是通过深度学习矫正文档变形的网络,但由于数据集和网络自身的限制,实际使用时的矫正效果没有达到预期.DewarpNet[12]获取图像的三维信息形状,使用映射网络输出矫正结果,效果优于DocUNet.Das et al[13]提出一种端到端的可分段的预测局部变形的方法,结合文档图像的全局扭曲和局部的变形来进行反扭曲.DocTr算法[14]将Transformer[15]与文档矫正相结合,通过文档的几何矫正和光照恢复两个方面进行文档的矫正.基于分块的卷积神经网络[16]将扭曲文档分块矫正,同时恢复文档上光照,进一步提高OCR的正确率.
Fig.5
The structure of the region proposal network
1.2.2 ROI Align
ROI Align是一种区域特征对齐的方法,和FasterRCNN中ROI Pooling的两次量化操作会造成误差相比,其可以有效地提升模型分割和检测的准确性.ROI Align通过引入双线性插值来解决像素点的坐标无法为小数的问题,在特征图的每一个子区域中通过采样点周围的像素值来计算采样点对应的像素值,避免量化误差.
DocUNet:Document image unwarping via a stacked U?Net
1
2018
... DocUNet[11]是通过深度学习矫正文档变形的网络,但由于数据集和网络自身的限制,实际使用时的矫正效果没有达到预期.DewarpNet[12]获取图像的三维信息形状,使用映射网络输出矫正结果,效果优于DocUNet.Das et al[13]提出一种端到端的可分段的预测局部变形的方法,结合文档图像的全局扭曲和局部的变形来进行反扭曲.DocTr算法[14]将Transformer[15]与文档矫正相结合,通过文档的几何矫正和光照恢复两个方面进行文档的矫正.基于分块的卷积神经网络[16]将扭曲文档分块矫正,同时恢复文档上光照,进一步提高OCR的正确率. ...
DewarpNet:Single?image document unwarping with stacked 3D and 2D regression networks
1
2019
... DocUNet[11]是通过深度学习矫正文档变形的网络,但由于数据集和网络自身的限制,实际使用时的矫正效果没有达到预期.DewarpNet[12]获取图像的三维信息形状,使用映射网络输出矫正结果,效果优于DocUNet.Das et al[13]提出一种端到端的可分段的预测局部变形的方法,结合文档图像的全局扭曲和局部的变形来进行反扭曲.DocTr算法[14]将Transformer[15]与文档矫正相结合,通过文档的几何矫正和光照恢复两个方面进行文档的矫正.基于分块的卷积神经网络[16]将扭曲文档分块矫正,同时恢复文档上光照,进一步提高OCR的正确率. ...
End?to?end piece?wise unwarping of document images
1
2021
... DocUNet[11]是通过深度学习矫正文档变形的网络,但由于数据集和网络自身的限制,实际使用时的矫正效果没有达到预期.DewarpNet[12]获取图像的三维信息形状,使用映射网络输出矫正结果,效果优于DocUNet.Das et al[13]提出一种端到端的可分段的预测局部变形的方法,结合文档图像的全局扭曲和局部的变形来进行反扭曲.DocTr算法[14]将Transformer[15]与文档矫正相结合,通过文档的几何矫正和光照恢复两个方面进行文档的矫正.基于分块的卷积神经网络[16]将扭曲文档分块矫正,同时恢复文档上光照,进一步提高OCR的正确率. ...
DocTr:Document image transformer for geometric unwarping and illumination correction
1
2021
... DocUNet[11]是通过深度学习矫正文档变形的网络,但由于数据集和网络自身的限制,实际使用时的矫正效果没有达到预期.DewarpNet[12]获取图像的三维信息形状,使用映射网络输出矫正结果,效果优于DocUNet.Das et al[13]提出一种端到端的可分段的预测局部变形的方法,结合文档图像的全局扭曲和局部的变形来进行反扭曲.DocTr算法[14]将Transformer[15]与文档矫正相结合,通过文档的几何矫正和光照恢复两个方面进行文档的矫正.基于分块的卷积神经网络[16]将扭曲文档分块矫正,同时恢复文档上光照,进一步提高OCR的正确率. ...
Attention is all you need. Advances in neural information processing systems
1
2017
... DocUNet[11]是通过深度学习矫正文档变形的网络,但由于数据集和网络自身的限制,实际使用时的矫正效果没有达到预期.DewarpNet[12]获取图像的三维信息形状,使用映射网络输出矫正结果,效果优于DocUNet.Das et al[13]提出一种端到端的可分段的预测局部变形的方法,结合文档图像的全局扭曲和局部的变形来进行反扭曲.DocTr算法[14]将Transformer[15]与文档矫正相结合,通过文档的几何矫正和光照恢复两个方面进行文档的矫正.基于分块的卷积神经网络[16]将扭曲文档分块矫正,同时恢复文档上光照,进一步提高OCR的正确率. ...
Document rectification and illumination correction using a patch?based CNN
1
2019
... DocUNet[11]是通过深度学习矫正文档变形的网络,但由于数据集和网络自身的限制,实际使用时的矫正效果没有达到预期.DewarpNet[12]获取图像的三维信息形状,使用映射网络输出矫正结果,效果优于DocUNet.Das et al[13]提出一种端到端的可分段的预测局部变形的方法,结合文档图像的全局扭曲和局部的变形来进行反扭曲.DocTr算法[14]将Transformer[15]与文档矫正相结合,通过文档的几何矫正和光照恢复两个方面进行文档的矫正.基于分块的卷积神经网络[16]将扭曲文档分块矫正,同时恢复文档上光照,进一步提高OCR的正确率. ...