南京大学学报(自然科学), 2023, 59(4): 660-668 doi: 10.13232/j.cnki.jnju.2023.04.012

基于图像边缘检测的扭曲文档矫正

徐远东1,2, 熊永平,1,2, 张铮1,2, 伍贵宾1,2, 张兴3, 王伟3

1.北京邮电大学计算机科学与技术学院(国家示范性软件学院), 北京, 100876

2.网络与交换技术国家重点实验室, 北京邮电大学, 北京, 100876

3.华润数字科技有限公司, 广州, 518049

Correction of distorted documents based on image edge detection

Xu Yuandong1,2, Xiong Yongping,1,2, Zhang Zheng1,2, Wu Guibin1,2, Zhang Xing3, Wang Wei3

1.School of Computer Science and Technology (National Pilot Software Engineering School),Beijing University of Posts and Telecommunications,Beijing,100876,China

2.State Key Laboratory of Networking and Switching Technology,Beijing University of Posts and Telecommunications,Beijing,100876,China

3.China Resources Digital Co. , Ltd, Guangzhou,518049,China

通讯作者: E⁃mail:ypxiong@bupt.edu.cn

收稿日期: 2023-06-13  

基金资助: 国网山东省电力公司科技项目.  2023A⁃131

Received: 2023-06-13  

摘要

扭曲的文档图像会干扰文档图像的光学字符识别(Optical Character Recognition,OCR).为了对扭曲形变的文档图像进行矫正,提高扭曲文档识别的正确率,基于目标检测与分割的网络,提出文档图像的边缘检测方法,使用贝塞尔(Bezier)曲线拟合文档图像的边缘曲线,通过目标检测的算法回归Bezier曲线的控制点.将文档图像的边缘检测转化为边缘曲线Bezier控制点的回归,使用文档的边缘点计算扭曲文档矫正后的矩形模板,然后将文档图像通过薄板样条插值(Thin Plate Spline,TPS)算法重映射到矩形模板中,完成文档的矫正.实验结果表明,提出的矫正方法能够对扭曲文档进行精确的边缘提取,和其他算法相比,经该算法矫正后的文档图像,其OCR的正确率有较大的提升.

关键词: 目标检测 ; 贝塞尔曲线 ; 文档图像矫正 ; 光学字符识别 ; 薄板样条插值

Abstract

Distorted document images interfere with optical character recognition (OCR) of document images. To correct distorted document images and improve the correct rate of distorted document OCR recognition,this paper proposes an edge detection method for document images based on the object detection and segmentation network,uses Bezier curves to fit the edge curves of document images,and returns the control points of Bezier curves through the object detection algorithm. Convert the edge detection of the document image into the regression of Bezier control points of the edge curve,use the edge points of the document to calculate the rectified rectangular template of the distorted document,and then remap the document image to the rectangular template through the thin plate spline algorithm to complete the correction of the document. Experimental results show that the proposed correction method accurately extracts the edges of distorted documents. Compared with other algorithms,the corrected document image has a greater improvement in the accuracy of OCR.

Keywords: object detection ; Bezier curve ; document image correction ; optional character recognition ; thin plate spline

PDF (1675KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

徐远东, 熊永平, 张铮, 伍贵宾, 张兴, 王伟. 基于图像边缘检测的扭曲文档矫正. 南京大学学报(自然科学)[J], 2023, 59(4): 660-668 doi:10.13232/j.cnki.jnju.2023.04.012

Xu Yuandong, Xiong Yongping, Zhang Zheng, Wu Guibin, Zhang Xing, Wang Wei. Correction of distorted documents based on image edge detection. Journal of nanjing University[J], 2023, 59(4): 660-668 doi:10.13232/j.cnki.jnju.2023.04.012

随着信息技术的发展,文档数字化的技术越来越成熟,将纸张上的信息传输到电子设备,为我们的生活提供了很多便利.由于纸张本身的特性,如易碎、易变形等特点,使用相机拍摄时往往会有严重失真.日常生活中,使用手机或者平板拍摄文档图像进行文字识别,但拍摄的文档图像通常存在不同程度的扭曲,对扭曲形变的文档直接进行文字识别,识别效果会很差.拍摄的扭曲文档图像往往是图像边缘的扭曲,相较于通过文档中文字块的位置进行文档矫正,使用文档边缘点的矫正算法更适用于手机拍摄的扭曲文档.

在扭曲文档矫正的研究中,国内外有很多丰富且具有创造力的工作,如基于文本边缘和文本线进行矫正的算法1-3.基于文本线的算法通过文字块检测算法检测文字块的位置,不同的文字块对应不同的连通域,通过比较连通域的距离,对同一行的连通域进行合并,计算文本行的斜率,通过对扭曲文本行的矫正完成文本图像的矫正.基于文档建模的算法4-6根据图像中检测到的一些几何特征来估计扭曲文档图像的参数,使用圆柱模型来矫正波形扭曲,或使用更复杂的数学曲面模型进行模拟矫正.基于文档曲面的参数估计和相机模型的算法7,可以有效地矫正扭曲文档.

扭曲文档的矫正还有基于三维重建的方法,通过深度相机8、双目相机、激光扫描仪或结构光的三维采集系统9获取扭曲文档的三维点云表面10,通过三维曲面的信息获取图像变形的二维参数,矫正扭曲文档图像.

DocUNet11是通过深度学习矫正文档变形的网络,但由于数据集和网络自身的限制,实际使用时的矫正效果没有达到预期.DewarpNet12获取图像的三维信息形状,使用映射网络输出矫正结果,效果优于DocUNet.Das et al13提出一种端到端的可分段的预测局部变形的方法,结合文档图像的全局扭曲和局部的变形来进行反扭曲.DocTr算法14将Transformer15与文档矫正相结合,通过文档的几何矫正和光照恢复两个方面进行文档的矫正.基于分块的卷积神经网络16将扭曲文档分块矫正,同时恢复文档上光照,进一步提高OCR的正确率.

通过比较现有的研究成果发现,有的算法对特定类型的文档矫正有效果,如使用圆柱模型来矫正波形扭曲;有的算法通过检测文字行的位置来矫正图像,但现有的文档越来越复杂,不仅有文字,还有表格和图像,算法的通用性不足;基于3D重建的方法需要使用额外的硬件设备,或需要不同视角的文档深度图像,也限制了其快速发展.本文提出一种基于MaskRCNN17和Bezier曲线的通用扭曲文档矫正方法,通过相关的实验验证了该方法在矫正扭曲文档上的有效性和先进性.

本文的主要贡献:

(1)提出基于目标检测和分割的文档图像边缘检测算法,使用Bezier曲线拟合文档图像边缘,对扭曲形变的文档图像边缘有很好的检测效果.

(2)提出基于扭曲文档图像边缘点计算矫正后文档矩形模板的方法,能够有效地将扭曲形变的文档图像按照原有的长宽比进行矫正.

1 基于图像边缘点的扭曲文档图像矫正

本文在MaskRCNN算法17的基础上,引入Bezier曲线,提出一种基于深度学习的图像边缘点检测的算法.在MaskRCNN的回归头中修改了网络的全连接层,加入检测图像边缘Bezier控制点的模块,实现了对文档任意形状扭曲的检测,比当前算法适用的范围更广.图1是矫正算法的工作流程图,网络不仅输出目标分类和目标掩膜,还输出目标边缘控制点的坐标,在取得图像边缘点后根据算法建立目标矩形模板,最后使用薄板样条插值(Thin Plate Spline,TPS)算法完成扭曲文档矫正.

图1

图1   本文矫正算法的工作流程图

Fig.1   The working flowchart of our correction algorithm


1.1 Bezier曲线

Bezier曲线是应用于二维图形绘制的数学曲线,利用它可以精确地画出曲线.Bezier曲线由线段和控制点组成,控制点是线段外可以变动的支点,线段是两个节点之间可以变换形状的“皮筋”.

Bezier曲线是线性插值的结果,最简单的一阶Bezier曲线的插值计算如式(1)所示:

p3=p1+p2-p1×t

其中,p1是线段起点,p2是线段末端点,t是一个0~1的插值百分比.对一阶的Bezier曲线进行递归得到二阶Bezier曲线,其计算如式(2)所示:

p4=p11-t2+2tp21-t+p3t2

其中,p1p2p3分别是线段起点、控制点、线段终点,t是0~1的插值百分比.三阶Bezier绘图如图2所示.在起点和终点之间的曲线曲率由Bezier控制点的位置控制,使用Bezier曲线还可以很好地拟合图像的边缘点,如图3所示.

图2

图2   三阶Bezier曲线示意图

Fig.2   The diagram of the third order Bezier curve


图3

图3   Bezier曲线标注文档图像边缘的示意图

Fig.3   Bezier curves marking the edges of document images


不同维度的Bezier曲线对于曲线的拟合精度有不同的表现.对于n阶Bezier曲线的推导如式(3)和式(4)所示,更复杂的曲线可以通过选择更高阶的Bezier曲线进行拟合,得到更加精确的曲线边缘.

Pt=i=0nPiBi,nt
Bi,nt=Cniti1-tn-i=n!i!n-i!ti1-tn-i

1.2 MaskRCNN算法

MaskRCNN是一种通用的目标检测算法框架,可以实现目标检测、分类以及像素级别的分割.和FasterRCNN相比,它加入了学习目标掩码的分支来实现目标分割.同时,MaskRCNN使用ROI Align中的双线性插值替换了FasterRCNN中ROI Pooling的量化,有效地提高了分割、检测和分类的精度.MaskRCNN的网络结构如图4所示.

图4

图4   MaskRCNN网络的结构图

Fig.4   The structure of MaskRCNN network


1.2.1 区域建议网络

区域建议网络(Region Proposal Network,RPN)寻找特征图中目标存在的区域,是用于提取候选区域的网络,其网络的结构如图5所示.RPN层的输入是图像经过骨干网络后生成的特征图,经过滑动窗口处理后,每个像素点都由k个锚框包围,k为预先设定的锚框个数.将特征图分别输入分类网络和检测网络,得到2k个得分和4k个坐标,每个锚框有不同的长宽比,通过锚框的组合能够比较完整地覆盖输入图中不同尺寸的目标.得分是网络对目标和图片背景的打分,用来区别是否包含要检测的目标;坐标表示候选区域映射到原图的坐标偏移.得到检测框的坐标和得分之后,通过非极大值抑制的方法来去除不符合要求的框,保留最优的候选框.

图5

图5   区域建议网络的结构图

Fig.5   The structure of the region proposal network


1.2.2 ROI Align

ROI Align是一种区域特征对齐的方法,和FasterRCNN中ROI Pooling的两次量化操作会造成误差相比,其可以有效地提升模型分割和检测的准确性.ROI Align通过引入双线性插值来解决像素点的坐标无法为小数的问题,在特征图的每一个子区域中通过采样点周围的像素值来计算采样点对应的像素值,避免量化误差.

1.3 改进的MaskRCNN算法

MaskRCNN的目标检测是回归目标的最小外接矩形的坐标,所以无法准确地获得扭曲文档图像的边缘点.如图6所示,改进后的MaskRCNN不仅回归目标的最小外接矩形,同时也回归图片每条边上的Bezier曲线控制点.每一个控制点是相对于矩形检测框左上角角点经过标准化后在x,y上的相对距离,通过Bezier曲线的控制点来还原整个曲线上的所有点,通过后续的薄板样条插值算法对文档图片进行矫正.算法输入的是扭曲文档图像,输出的是矫正后的文档图像.

图6

图6   控制点回归演示图

Fig.6   Demo diagram of control points' regression


算法的流程如下:

步骤1.对检测图片进行标准化,采用训练好的模型对标准化后的扭曲文档图片进行检测,获得目标的矩形检测框、目标边缘的多对Bezier控制点和目标的Mask掩膜.

步骤2.通过Bezier曲线的控制点计算目标边缘曲线上点的坐标,将这些节点作为初始点,计算文档图片矫正后的矩形模板,矩形模板上的对应坐标点即为目标点.这些初始点和目标点是上下和左右对应的.

步骤3.对步骤2中获得的初始点和目标点使用TPS变换算法,计算变换算法的变换矩阵.

步骤4.使用步骤3得到的变换矩阵,对步骤1的原始图片进行变换,得到矫正后的目标图片.

步骤5.使用步骤1获得的Mask掩膜外接多边形的有序点集,使用步骤3得到的变换矩阵计算外接多边形有序点集在变换后的有序点集.

步骤6.计算步骤5获得的变换后的有序点集的外接矩形.

步骤7.通过步骤6获得外接矩形的坐标,对步骤4得到的矫正后的图片进行裁剪,得到矫正后的图片.

循环步骤1至步骤7,直到遍历检测所有的目标图片.

改进的MaskRCNN算法的流程如图7所示.

图7

图7   改进的MaskRCNN算法的流程图

Fig.7   The flow chart of improved MaskRCNN


目标检测框Rect由左上角角点坐标和外接矩形宽和高进行定义,如式(5)所示:

Rect=x,y,w,h

改进的MaskRCNN网络模型中控制点回归得到的结果为控制点到文档检测矩形框Rect左上角角点经过标准化后的相对距离,计算如式(6)和式(7)所示.记第j个控制点坐标为xj,yj,则标准化后的相对距离dx,dy式(8)和式(9)所示,其中,wx,wy是人为设定的标准化权重.

Δx=xj-x
Δy=yj-y
dx=12×wx×Δx+1-ww
dy=12×wy×Δy+1-hh

相对地,步骤1中检测得到的第j个控制点的坐标xj,yj可由回归得到的相对距离dx,dy和回归得到的文档矩形检测框计算得到,其计算如式(10)和式(11)所示:

xj=dx×wwx×0.5+w-1+x
yj=dy×hwy×0.5+h-1+y

改进的MaskRCNN回归Bezier控制点有八对,文档的上下边缘有四对控制点,左右边缘有四对控制点,共计16个Bezier控制点.特别地,设定dx,dy对应的标准化权重wx,wywx=5wy=10.本文在设置标准化权重wx,wy时测试了五种不同的坐标比例,测试结果在后文中展示.

改进的MaskRCNN在训练时,使用的损失函数如式(12)所示:

loss=lcls+lbox+lpoint+lmask

其中,lcls表示目标检测框的分类损失,使用交叉熵损失函数;lbox表示矩形检测框的回归损失,使用SmoothL1损失函数;lpoint表示Bezier控制点的回归损失,使用SmoothL1损失函数;lmask表示Mask掩膜的分割损失,使用二值交叉熵损失函数.

图6所示,选择目标图片左侧两两边缘点之间的距离和作为矩形模板左边缘的长度,同理,矩形模板右边缘的长度也是两两边缘点的距离和.为了保持矩形模板的长宽比,记扭曲文档短边的长度为lshort,矩形模板的短边为lshort'.将矩形模板短边缩放到lshort,计算缩放比r=lshort'/lshort,将矩形模板的长边按缩放比r进行缩放,得到最终的矩形模板.

矩形模板左右边缘选取与原图中边缘点对相同数量的点集,其在矫正后图片中的坐标为目标点.记边缘点对数为k,则总边缘点数为2k,获得的矩形模板大小为h×w,在矩形模板左边界均匀地从上向下取k个点.具体地,矩形模板左边界的边缘点如式(13)所示:

0,h×0k-1,0,h×1k-1,,0,h×k-1k-1

在右边界中对应的位置同样取k个边缘点.具体地,矩形模板右边界的点如式(14)所示:

w,h×0k-1,w,h×1k-1,,w,h×k-1k-1

左右边界对应的边缘点组成目标点对,共计k对,2k个目标点.使用边界均匀排布的多对边缘点作为变换算法的初始点,使用矩形模板上对应的边缘点作为变换算法的目标点,计算变换算法对应的变换矩阵,变换算法使用薄板样条插样算法.同理,对于扭曲文档图像上下边缘的点使用该方法计算其在矩形模板上对应的点.在分别得到图像边缘的初始点和目标点后,使用TPS算法完成对扭曲文档图片的矫正.

1.4 薄板样条插值算法

插值是利用一些已知的离散点,通过离散点拟合得到一个函数fx,该函数在离散点处的值和已知函数值是相等的,在未知点的值则使用函数进行估计.薄板样条插值是一种基于物理模型的插值方法,就像一张薄板弯曲后经过空间的几个固定的坐标并且薄板的弯曲能量最小,薄板样条插值算法在图像的匹配和畸变校正中有很多应用.

定义两组对应的点集,分别是点集S和点集T,如式(15)和式(16)所示:

S=x1,y1,,xn,yn
T=x1',y1',,xn',yn'

其中,S点集和T点集是一一对应的,称S点集是模板点集,T点集是目标点集,它们就是TPS算法的控制点,需要一个非常光滑的函数fx,y使fsiti的误差很小.为了拟合这个光滑的函数,需要定义两个项:一个是拟合项εΦ,是坐标误差的极小惩罚项;另一个是扭曲项εd,测量曲面的扭曲程度.则求解的函数如式(17)~(19)所示:

minEfx,y=εΦ+εd
εΦ=i=1nti-fsi2
εd=λ2fx22+22fxy+2fy22dxdy

其中,ti表示T点集中的点,si表示S点集中的点.薄板样条插值算法的结果就是方程求解的函数fx,y.TPS算法满足最小程度的扭曲平面且所有的控制点都在曲面上,使用TPS算法可以非常平滑地把扭曲形变的文档图像映射到计算好的矩形模板中,实现文档的矫正.

2 实验设计及评估

对实验的环境和实验结果进行展示和分析,通过相关的指标分析实验结果的有效性,使用不同的矫正算法对扭曲文档的图片进行测试.

实验平台:Intel(R) Core(TM) i7⁃9700K,3.6 GHz,内存32 GB,显卡为Nvidia GeForce RTX 3090.

实验使用的数据集由两部分构成:一部分是DocUNet提供的数据集,另一部分是手动采集的样本,经过人工筛选共得到3000张适用的图片,这些图片经过labelme标注工具进行手动的标注.

训练时使用MaskRCNN的预训练模型,使模型的各部分参数有比较合适的初始权重,在目标数据集上训练时可以大大加快网络的收敛速度.在Pytorch的框架上,数据集按8∶1∶1划分为训练集、测试集和验证集,初始的学习率设置为0.01.

使用四个指标对实验结果进行评价,分别为边缘曲线拟合优度、矫正后图像与原始展平图像的结构相似性(Structure Similarity Index Measure,SSIM)、图像局部失真(Local Distortion,LD)以及矫正前后OCR的错误率.

计算Bezier控制点拟合的扭曲文档边缘曲线与文档真实边缘曲线的相似度,如式(20)所示,使用拟合优度指标RN.通过MaskRCNN网络回归得到文档图像的边缘控制点,由Bezier控制点计算得到曲线上所有点,其中,y^i表示曲线的拟合点,yi是实际边缘点,通过计算拟合优度RN来评价Bezier曲线控制点的回归效果.

RN=1-yi-y^i2yi2

不同算法对图像边缘的拟合结果如表1所示.其中,Mask表示使用MaskRCNN直接回归扭曲文档的边缘点,使用回归得到的边缘点和真实的图像边缘计算拟合的优度;Mask+Bezier_2表示使用改进后的模型回归扭曲文档的边缘Bezier控制点,使用两个控制点实现图像边缘点的插值算法;Mask+Bezier_4表示使用四个控制点的Bezier曲线对边缘曲线进行插值;Mask+Bezier_6表示使用六个控制点的Bezier曲线对边缘曲线进行插值;Mask+Bezier_8表示使用八个控制点的Bezier曲线对边缘曲线进行插值;Mask+Bezier_4(1∶1)表示标准化权重的坐标比例为1∶1.实验测试后发现标准化权重为1∶2时,回归得到的Bezier控制点拟合文档边缘曲线的效果最好,如表中黑体字所示.

表1   不同算法拟合图像边缘结果的对比

Table 1  Fitting results of image edges by different algorithms

模型RN
Mask0.8516
Mask+Bezier_20.9195
Mask+Bezier_4(1∶2)0.9543
Mask+Bezier_4(1∶1)0.9438
Mask+Bezier_4(1∶3)0.9407
Mask+Bezier_4(2∶1)0.9415
Mask+Bezier_4(3∶1)0.9388
Mask+Bezier_6(1∶2)0.9587
Mask+Bezier_8(1∶2)0.9618

新窗口打开| 下载CSV


不同数量的Bezier控制点对曲线拟合的能力不同,如图8所示.图8第一行是3阶Bezier曲线拟合曲线的结果,第二行是5阶Bezier曲线拟合扭曲文档边缘曲线的结果,第三行是9阶Bezier曲线的拟合效果.由图可见,随着Bezier曲线阶数的提升,其对复杂曲线的拟合效果更好,但四阶之后,随着阶数的提升,文档边缘曲线的拟合优度的提升不明显,且Bezier曲线阶数提升使控制点增多,网络回归控制点的损失变大.

图8

图8   不同维度的Bezier曲线拟合效果的对比

Fig.8   The fitting effect of Bezier curves with different dimensions


对矫正前后的文档图像进行文字识别,对比文字识别的结果来对矫正结果进行评估.对OCR评估的指标是字符错误率(Character Error Rate,CER),是识别结果的编辑距离与识别正确的字符数的比值.编辑距离指一个字符串变成另一个字符串需要的最少操作数,包括替换(r)、删除(d)、插入(i)的操作数.CER的计算如式(21)所示,其中,n表示正确字符的总数:

CER=r+d+in

为了对比不同算法的矫正结果,使用五种矫正算法进行对比实验,分别是传统分割算法和TPS相结合的矫正算法、DocUNet算法、Dewarp⁃Net算法、网格正则化的矫正算法18和本文提出的基于MaskRCNN+Bezier的矫正算法,部分算法的矫正效果如图9所示.由图可见,传统算法对文本的矫正效果较差,矫正文档中的文字产生了新的扭曲,不利于后续的文本识别.DewarpNet的矫正效果优于传统算法,但对图像边缘的处理效果较差,导致边缘文字的扭曲.本文提出的方法能够较好地还原扭曲的文档,对图像边缘的处理更加细致.

图9

图9   文档图像矫正效果的对比

Fig9   The correction effect of document images by different algorithms


使用DocUNet提供的文档图片和手动收集的中文古籍文档图片作为实验的测试集,测试图片经矫正算法处理后,分别使用四个评价指标进行计算,结果如表2所示.由表可见,本文算法的结构相似性和图像局部失真的指标优于现有的算法,矫正后图像的文本识别错误率略高于现有的最优算法Grid Regularization,该算法提出一种新的网格正则化方法来替换薄板样条插值算法,更加聚焦于文字的扭曲矫正.本文不仅对英文数据进行了测试,还对中文的扭曲文档进行了测试,经过矫正后字符识别的错误率下降到0.2365.

表2   不同矫正算法的评价指标对比

Table 2  Evaluation indicators of correction by different algorithms

矫正算法CERSSIMLD
传统算法0.43720.421411.2
DocUNet0.42160.445610.4
DewarpNet0.32480.47729.2
Grid Regularization0.22780.49039.4
Ours0.33060.452710.1
Ours (Bezier)0.23650.49398.9

新窗口打开| 下载CSV


为了验证Bezier曲线对扭曲文档边缘曲线检测的作用,直接使用MaskRCNN回归扭曲文档的边缘点,根据曲线边缘点对扭曲文档进行矫正.从表2的第五行可以看到,在不使用Bezier曲线的情况下,扭曲文档矫正后的指标出现了下滑,验证了Bezier曲线在本算法中的作用.

3 结论

本文提出一种基于MaskRCNN和Bezier曲线的扭曲文档矫正算法,通过目标检测和分割的网络回归文档边缘曲线的Bezier控制点,使用控制点和插值算法来拟合文档图像的边缘曲线.根据扭曲文档边缘曲线的参数建立矫正后的矩形模板,使用薄板样条插值算法把扭曲文档重映射到矩形模板中,实现了扭曲文档图像的矫正.实验结果表明,扭曲文本图像经过本文算法的矫正后,其文字识别的错误率显著下降,并且矫正后的相关指标优于现有的矫正算法,证明了本文提出的矫正算法的有效性和先进性.

下一步计划对图像边缘点的回归方法进行改进,使用更加轻量化以及速度更快的网络对图像边缘的Bezier控制点进行回归,直接使用Bezier控制点完成对扭曲文档的矫正.

参考文献

Cao H GDing X QLiu C S.

A cylindrical surface model to rectify the bound document image

Proceedings of the 9th IEEE International Conference on Computer Vision. Nice,FranceIEEE2003228-233.

[本文引用: 1]

Koo H IKim JCho N I.

Composition of a dewarped and enhanced document image from two view images

IEEE Transactions on Image Processing,200918(7):1551-1562.

寇喜超张鸿锐冯杰.

基于多级文本检测的复杂文档图像扭曲矫正算法

计算机科学,202148(12):249-255.

[本文引用: 1]

Kou X CZhang H RFeng Jet al.

Distortion correction algorithm for complex document image based on multi⁃level text detection

Computer Science,202148(12):249-255.

[本文引用: 1]

Kil TSeo WKoo H Iet al.

Robust document image dewarping method using text-lines and line segments

2017 14th IAPR International Conference on Document Analysis and Recognition. Kyoto,JapanIEEE2017865-870.

[本文引用: 1]

Kanungo THaralick R MPhillips I.

Global and local document degradation models

Proceedings of the 2nd International Conference on Document Analysis and Recognition. Tsukuba,JapanIEEE1993730-734.

Wada TUkida HMatsuyama T.

Shape from shading with interreflections under proximal light source⁃3D shape reconstruction of unfolded book surface from a scanner image

Proceedings of IEEE International Conference on Computer Vision. Cambridge,MA,USAIEEE199566-71.

[本文引用: 1]

Kim B SKoo H ICho N I.

Document dewarping via text⁃line based optimization

Pattern Recognition,201548(11):3600-3614.

[本文引用: 1]

Zhang LZhang YTan C.

An improved physically⁃based method for geometric restoration of distorted document images

IEEE Transactions on Pattern Analysis and Machine Intelligence,200830(4):728-734.

[本文引用: 1]

Brown M SSeales W B.

Document restoration using 3D shape:A general deskewing algorithm for arbitrarily warped documents

Proceedings of the 8th IEEE International Conference on Computer Vision. Vancouver,CanadaIEEE2001367-374.

[本文引用: 1]

You SMatsushita YSinha Set al.

Multiview rectification of folded documents

IEEE Transactions on Pattern Analysis and Machine Intelligence,201840(2):505-511.

[本文引用: 1]

Ma KShu Z XBai Xet al.

DocUNet:Document image unwarping via a stacked U⁃Net

Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City,UT,USAIEEE20184700-4709.

[本文引用: 1]

Das SMa KShu Z Xet al.

DewarpNet:Single⁃image document unwarping with stacked 3D and 2D regression networks

Proceedings of 2019 IEEE/CVF International Conference on Computer Vision. Seoul,Korea (South)IEEE2019131-140.

[本文引用: 1]

Das SSingh K YWu Jet al.

End⁃to⁃end piece⁃wise unwarping of document images

Proceedings of the IEEE/CVF International Conference on Computer Vision. Montreal,CanadaIEEE20214268-4277.

[本文引用: 1]

Feng HWang Y CZhou W Get al.

DocTr:Document image transformer for geometric unwarping and illumination correction

Proceedings of the 29th ACM International Conference on Multimedia. Chengdu,ChinaACM2021273-281.

[本文引用: 1]

Vaswani AShazeer NParmar Net al.

Attention is all you need. Advances in neural information processing systems

Proceedings of the 31st Inter⁃national Conference on Neural Information Processing Systems. Long Beach,CA,USACurran Associates Inc.20176000-6010.

[本文引用: 1]

Li X YZhang BLiao Jet al.

Document rectification and illumination correction using a patch⁃based CNN

ACM Transactions on Graphics,201938(6):168.

[本文引用: 1]

He K MGkioxari GDollár Pet al.

Mask R⁃CNN

Proceedings of the IEEE International Conference on Computer vision. Venice,ItalyIEEE20172980-2988.

[本文引用: 2]

Jiang X WLong R JXue Net al.

Revisiting document image dewarping by grid regularization

Proceedings of 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans,LA,USAIEEE20224533-4542.

[本文引用: 1]

/