南京大学学报(自然科学), 2022, 58(2): 298-308 doi: 10.13232/j.cnki.jnju.2022.02.013

融合全局和局部特征的光场图像空间超分辨率算法

井花花, 晏涛,, 刘渊

江南大学人工智能与计算机学院,无锡,214122

A spatial super⁃resolution method for light filed images by fusing global and local features

Jing Huahua, Yan Tao,, Liu Yuan

School of Artificial Intelligence and Computer Science,Jiangnan University, Wuxi,214122, China

通讯作者: E⁃mail:yantao@jiangnan.edu.cn

收稿日期: 2021-10-29  

基金资助: 国家自然科学基金.  61902151

Received: 2021-10-29  

摘要

光场相机传感器有限的空间分辨率阻碍了光场图像处理相关研究的进展.提出一种融合全局和局部特征的光场图像空间超分辨率算法,提高了对光场子视点全局关系建模的能力.由于光场相机捕捉的图像亮度较低,严重影响了超分辨率图像的质量,提出一个改进的4D零参考深度曲线估计网络(4D Zero⁃DCE⁃Net),充分利用光场全部子视点信息来提高光场图像的亮度.为了解决光场图像空间分辨率低的问题,提出一个基于生成对抗网络的光场图像空间超分辨率网络模型.生成器包含三个部分:第一部分是Transformer和4D卷积以并行方式结合的网络结构,能以较浅的网络层捕捉图像的全局和局部细节信息;第二部分是一个交互融合注意力模块IFAM (Interactive Fusion Attention Module),能有效地融合上述两个分支得到的全局自注意力和局部细节信息;第三部分是一个重建模块PS⁃PA (Pixel Shuffle⁃Pixel Attention),能提高整个光场的空间分辨率.最后,利用相对判别器来指导生成器的训练.实验结果表明,提出的算法和其他算法相比,峰值信号比(PSNR)至少提升了1 dB.

关键词: 光场图像 ; 超分辨率 ; Transformer ; 4D卷积

Abstract

The limited spatial resolution of sensor of light field camera hinders the progress of light field image processing related research. This paper proposes a spatial super⁃resolution algorithm for light field images by integrating global and local features,which improves the ability of modeling the global relationship between light field sub⁃views. Since brightness of captured light field images is low and seriously affects the quality of the super⁃resolution image,this paper proposes an improved 4D Zero⁃DCE⁃Net to make full use of all sub⁃views of a light field to enlighten light field images. In order to solve the problem of low spatial resolution of light field images,we propose a spatial super⁃resolution network model of light field images based on generative adversarial network. The generator consists of three parts. The first part is a network structure that combines Transformer and 4D convolution in a parallel manner. It captures global and local details of the images with a shallower network layer. The second part proposes an interactive fusion attention module (IFAM) to effectively fuse the global self⁃attention and local detail information from the above two branches. The third part is a reconstruction module (PS⁃PA) to improve the spatial resolution of the entire light field. Finally,the relative discriminator is used to guide the training of the generator. Extensive experimental results show that our proposed method improves the PSNR (Peak Signal to Noise Ratio) performance index by at least 1 dB than other methods.

Keywords: light field image ; super resolution ; Transformer ; 4D convolution

PDF (3161KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

井花花, 晏涛, 刘渊. 融合全局和局部特征的光场图像空间超分辨率算法. 南京大学学报(自然科学)[J], 2022, 58(2): 298-308 doi:10.13232/j.cnki.jnju.2022.02.013

Jing Huahua, Yan Tao, Liu Yuan. A spatial super⁃resolution method for light filed images by fusing global and local features. Journal of nanjing University[J], 2022, 58(2): 298-308 doi:10.13232/j.cnki.jnju.2022.02.013

随着光场相机的快速发展,光场图像处理算法日益增多.光场图像与传统的2D图像不同,一次曝光即可记录整个四维光场的结构信息,包括光线的强度和方向信息,因此可以更好地支撑多个计算机视觉领域的研究,例如重聚焦1、三维重建2-5、虚拟/增强现实6-7、图像去除运动模糊8和去雨9等.

通常使用两平面参数化来表示4D光场,即Lx,y,s,tx,y表示空间平面,s,t表示角度平面.近年来,研究者们已经提出多个传统的光场图像超分辨率算法,对视点之间的关系进行物理建模,将超分辨率视作优化问题.Wanner and Goldluecke10-11在EPI (Epipolar Plane Image)上使用结构张量来估计视差图,该视差图可用在变体框架中实现空间和角度超分辨率.Mitra and Veeraraghavan12提出一个通用框架,使用以视差值为条件的高斯混合模型对光场进行建模.Cho et al13提出一种基于稀疏编码的框架来训练低分辨率和高分辨率光场图像对的字典来提高算法的性能.

由于光场数据的高维特征,上述传统超分辨率算法的效果非常有限.随着深度神经网络研究的快速发展和成功,涌现了一些基于深度学习的算法来解决光场空间超分辨率的问题,它们主要利用多视点冗余性以及视点之间的补充信息来学习从低分辨率到高分辨率的映射关系.Rossi and Frossard14提出一个基于图的正则化器来增强光场的几何结构,从而提高光场全部视点的分辨率.Yoon et al15-16首次提出使用CNN(Convolutional Neural Networks)处理光场数据,同时实现角度和空间超分辨率.Wang et al17提出一个双向循环卷积神经网络,分别对水平和垂直两个方向上相邻子视点的空间相关性进行建模,然后利用堆栈泛化技术将两者集成起来获得高分辨率光场图像.Zhang et al18提出一个残差网络来实现光场图像的超分辨率,将四个不同方向的视点堆叠起来进入网络的四个分支提取特征,并将四个分支的残差信息融合在一起得到重建结果.Yeung et al19提出一种空间角度可分离的卷积模块,可以更高效地提取空间和角度的特征,进而更好地恢复光场图像的细节信息.Meng et al20提出一种高维密集残差卷积神经网络来重建光场,将光场的所有子视点作为输入,并使用4D卷积获取视点之间的关系.Wang et al21提出一个空间角度交互网络实现光场图像的超分辨率,首先从宏像素图像中提取角度和空间特征,然后通过交互模块实现空间⁃角度的信息交互,最后利用光场重塑得到高分辨率图像.Jin et al22提出一种All⁃to⁃One模块,通过当前视点与参考视点的组合相关性充分利用光场视点之间的补充信息,并使用结构一致性正则化模块来恢复光场的几何结构.

本文在光场超分辨率之前首先对图像进行亮度增强.由于光场相机捕捉的图像亮度较低,造成光场分解得到的子视点图像因存在较多噪声/坏点等导致图像失真的问题,影响了超分辨率图像的质量.真实场景的光场图像没有真值,无法用有监督的方法训练网络.Guo et al23提出零参考深度曲线估计网络(Zero⁃DCE⁃Net),增强了单张图像的亮度,效果比较好,但由于光场子视点从边缘到中心的亮度范围不同,边缘子视点会偏暗.因此,本文在Zero⁃DCE⁃Net的基础上将2D卷积改成4D卷积,提出改进的4D Zero⁃DCE⁃Net,利用各子视点之间亮度信息(光场的几何结构信息)来提高整个光场图像的亮度.

为了保证光场多个子视点结构的完整性和一致性,需要获取光场图像的全局特征,然后再提取局部特征来补充图像的细节信息.4D卷积神经网络在光场图像超分辨率上已经取得不错的效果,但是其全局建模能力较弱,不能有效地捕捉每个子视点内长距离的依赖关系,所以需要不断增加卷积层获得更大感受野来对图像的全局关系建模,这不但会增加大量的参数,而且低水平特征会逐渐消失,进而影响生成图像的质量.因此,本文分开提取全局和局部特征.Transformer的感受野比较大,它对序列到序列建模和并行计算的能力可以很好地对光场数据的全局关系建模.4D残差卷积充分地利用光场几何结构信息获取全部子视点的局部特征,使其能够生成局部细节丰富和全局信息一致的高分辨率光场图像.

本文提出一个基于深度学习的光场图像空间超分辨率算法,如图1所示.首先对光场图像进行亮度增强的预处理,然后提出一个生成对抗网络(Generative Adversarial Networks,GAN)来实现光场图像超分辨率.生成器由三部分组成:第一部分是由Transformer和4D残差卷积以并行方式结合的网络结构来提取全局和局部信息;第二部分利用交互融合注意力模块(IFAM)融合两个分支的信息;第三部分通过重建模块(PS⁃PA)来提高整个光场图像的空间分辨率.最后,通过相对判别器24指导神经网络的训练.

图1

图1   本文的网络结构图

Fig.1   Network structure proposed in this paper


1 算法原理

本文算法由光场图像亮度增强和光场图像超分辨率两个模块组成,具体步骤如下:(1)提出改进的4D零参考深度曲线估计网络(4D Zero⁃

DCE⁃Net),对光场图像做亮度增强;(2)利用Transformer建模全局关系的能力和4D卷积对全部视点空间相关性建模的归纳偏置,构建一个由Transformer和4D卷积以并行方式结合的网络模型;(3)提出一个融合模块(IFAM)融合两个分支的信息,促进对全局和局部信息的提取并进一步增强图像的细节信息;(4)提出一个重建模块(PS⁃PA),使网络关注有用的信息来提高整个光场图像的空间分辨率.下面详细介绍算法的每个部分.

1.1 光场图像亮度增强(预处理)

低亮度的光场图像会影响视觉效果和图像传递信息的质量,因此,本文在零参考深度曲线估计网络(Zero⁃DCE⁃Net)23的基础上设计一个4D零参考深度曲线估计网络(4D Zero⁃DCE⁃Net),充分利用光场的几何结构信息来实现整个光场图像的亮度增强,将图像亮度增强任务建模为一个基于轻量级深度神经网络的图像特定曲线估计问题.为了估计像素级的高阶亮度增强曲线以实现输入图像亮度的动态范围调整,算法主要依据像素的取值范围、单调性、可微性,设计了一组无参考的损失函数来隐式测量亮度增强的效果并驱动神经网络的学习.4D Zero⁃DCE⁃Net的核心是亮度增强曲线、4D深度曲线估计网络(4D DCE⁃Net)和零参考的损失函数.

首先,设计一种能够将低亮度图像自动映射到增强图像的曲线,曲线参数是自适应的且仅取决于输入图像.曲线需要满足增强图像的像素值归一化为0,1、曲线是单调的以及在梯度反向传播过程中是可导的三个要求,如式(1)所示:

LEIx;α=Ix+αIx1-Ix

其中,x为像素坐标,LEIx;α为输入图像Ix的增强结果,α-1,1为可训练的曲线参数.

为了使模型能适应弱光条件的挑战以及可以在更宽的动态范围内调整图像,通过迭代和重新定义α为一个逐像素参数的方式来对式(1)做进一步改进,如式(2)所示:

LEnx=LEn-1x+MnxLEn-1x1-LEn-1x

其中,LEnx为输入图像亮度增强的结果,n为迭代次数,M为与输入图像大小一样的参数图.

然后,利用4D DCE⁃Net来学习输入图像和曲线参数图之间的映射关系.4D DCE⁃Net由具有对称连接的七个4D卷积层构成,输入为低亮度图像,输出为一组用于高阶曲线的曲线参数图.最后,设置四个无参考损失函数:空间一致损失、曝光控制损失、颜色恒等损失以及平滑度损失来约束网络,关于损失函数的更多细节可参考文献[23].

1.2 光场图像超分辨率

超分辨率网络结构是一个生成对抗网络,生成器主要由Transformer和4D卷积以并行方式结合的网络模型、融合模块和重建模块三部分组成,判别器采用相对判别器24.本文的主要任务是将低分辨率的光场图像IlrS×T×X×Y重建为高分辨率的光场图像Isr

S×T×rX×rY,其中,r表示上采样因子,本文设置为4,S,TX,Y分别表示角度坐标和空间坐标.

1.2.1 全局特征提取器

本文将光场的全部视点输入Transformer25中提取全局特征,这与传统的Transformer不同.传统的Transformer只对单张图像进行注意力操作,而Bertasius et al25的Transformer可以对多张图像进行注意力操作,它通过对不同视点相同位置的图像块进行注意力操作,再对同一视点不同位置的图像块进行空间注意力操作来提取光场全部子视点的信息.如图2所示,同时取多个视点同一位置的图像块(如图中左上角红色框位置)进行注意力操作,无红色框的图像块表示没有进行注意力操作.

图2

图2   不同视点相同位置的图像块的注意力计算示意图

Fig.2   Schematic diagram of attention computation for image patches at the same position for all sub⁃views


首先将所有视点表示为FH×W×C×V,每个视点分成N个大小为P的图像块,并把这些图像块展开为向量fp,tP2×C,其中,N=HW/P2p=1,,N表示空间位置,t=1,,V表示视点下标.为了保存每个图像块的位置,加入一个可学习的位置编码Ep,tDD表示多头注意力的总维度.通过矩阵MD×P2×C将每个fp,t映射到嵌入向量Zp,t0,表示为Zp,t0=Mfp,t+Ep,t,令其作为Transformer的输入.Transformer包含l个编码块,对于每个编码块,qp,tl,hkp,tl,hvp,tl,h可以根据前一个编码块得到的编码Zp,tl-1计算得到:

qp,tl,h=Wql,hLNZp,tl-1kp,tl,h=Wkl,hLNZp,tl-1vp,tl,h=Wvl,hLNZp,tl-1

其中,h表示多头注意力的索引,LN是层归一化操作,Wql,hWkl,h以及Wvl,h表示权重.

自注意力权重是通过点乘计算得到的,首先计算不同视点相同位置的图像块的自注意力权重,如式(4)所示:

μp,tl,hviews=SMqp,tl,hTDhk0,0l,hkp,t'l,ht'=1,,V

其中,Dh表示每个头注意力的维度,SM表示softmax激活函数,T表示转置操作,μp,tl,hviews表示不同视点相同位置的图像块的自注意力权重.

同一视点图像块的空间注意力的权重计算如式(5)所示:

μp,tl,hspace=SMqp,tl,hTDhk0,0l,hkp',tl,hp'=1,,N

其中,μp,tl,hspace表示同一视点图像块的空间注意力的权重.

l块的编码Zp,tlviews是通过每个头注意力的自注意力系数来计算值向量的加权和,然后将来自所有头注意力的这些向量级联在一起得到的.Zp,tlviews根据式(3)获得新的qp,tl,hkp,tl,hvp,tl,h,利用式(5)来计算空间自注意力,然后计算值向量的加权和,将来自所有头注意力的这些向量级联在一起得到向量Zp,tlspace,再输入MLP中得到在l块的编码Zp,tl,最后将结果重建为H×W×C×V的特征图F1.式(6)所示:

Zp,tl=MLPLNZp,tlspace+Zp,tlspaceF1=ReshapeZp,tl

其中,MLP表示多层感知机,LN是层归一化操作.

1.2.2 局部特征提取器

本文利用浅层(仅四层)4D残差网络从光场的全部视点中学习局部几何特征,充分利用了视点之间的补充信息以及光场的几何结构信息.通过浅层的4D残差网络,不仅缓解了梯度消失的问题,保留了低水平光场几何特征,而且能更好地恢复光场的结构和细节信息.4D残差模块中包含两层步长为1,卷积核尺寸为3×3×3×3的4D卷积.如式(7)所示:

F2=H4DRBsIlr

其中,Ilr表示光场全部子视点,H4DRBs表示4D残差卷积操作.

1.2.3 融合模块(IFAM)

为了有效地融合从Transformer和4D卷积获取的特征,本文提出一个新的融合模块IFAM,它包含空间注意力(SAM)和通道注意力(CAM),并以交互的方式实现两个分支信息的融合.SAM首先对特征图进行两个池化操作,然后进入7×7卷积和Sigmoid激活函数得到空间上的权重.CAM使特征图经过自适应的平均和最大池化操作,池化后的特征图再分别通过3×3卷积,然后进行像素相加,最后通过Sigmoid激活函数得到通道上的权重.利用通道注意力模块促进来自Transformer分支全局信息的提取,利用空间注意力模块增强来自4D残差网络的局部细节信息.经过注意力模块得到的权重与原始图像相乘后的特征图再与另外一个分支的信息经过3×3卷积融合在一起后和原始的信息相加,最后再通过3×3卷积把两个分支的信息融合在一起.如式(8)所示:

F1'=ConvConvCAF1×F1,F2+F1F2'=ConvConvSAF2×F2,F1+F2F=ConvF1',F2'

其中,F1F2分别表示全局和局部特征,CASA分别表示通道和空间注意力,Conv表示卷积,F1'F2'分别表示经过注意力模块后与另外一个分支信息融合后的特征,F表示最终融合后的特征.

1.2.4 重建模块(PS⁃PA)

PS⁃PA主要由PixelShuffle层、卷积层和像素注意力层组成,融合后的信息进入PS⁃PA中得到高分辨率的光场图像.首先,融合后的信息进入PixelShuffle层,经过像素重排来放大图像,具体是通过卷积获得通道数为r的平方的特征图,然后利用PS (Periodic Shuffing)获得高分辨率图像,则r是上采样因子;然后进入3×3卷积提取特征,获取的特征进入像素注意力模块中通过1×1卷积和Sigmoid激活函数为图像的每个像素都分配权重,从而使网络关注有用的信息;最后,通过3×3卷积得到高分辨率图像.本文在重建模块引入像素注意力,既可以提高卷积的表达能力,又能更好地恢复光场图像的细节信息.如式(9)所示:

Isr=RpspaF

其中,Isr表示最终超分辨率后的结果,Rpspa表示重建操作,F表示融合后的特征.

网络训练的总损失函数由三部分组成:重建损失、感知损失以及GAN损失,如下所示:

Ltotal=1-λ1-λ2Lrec+λ1Lper+λ2LGs

其中,Lrec是重建损失,Lper是感知损失,LGs是GAN损失,λ1λ2LperLGs在总损失函数中的权重.

重建损失被定义为生成的高分辨率图像和真值的L1损失,如下所示:

Lrec=1STs=1St=1TIs,tHR-Is,tSR1

其中Is,tHR是真值,Is,tSR是生成的结果,ST是光场的角度坐标.

为了提高超分辨率结果的视觉质量,引入感知损失:

Lper=1STs=1St=1TϕIs,tHR-ϕIs,tSR22

其中,ϕ表示从VGG中提取的特征图.

判别器和生成器损失函数如下所示:

LDs=1STs=1St=1TDRaIs,tHR,Is,tSR-12+DRaIs,tSR,Is,tHR2LGs=1STs=1St=1TDRaIs,tSR,Is,tHR-12+DRaIs,tHR,Is,tSR2

其中,LDsLGs分别表示判别器和生成器损失函数,DRa表示相对判别器.

2 实验结果

2.1 网络训练细节

利用斯坦福真实场景光场数据集26和LytroIllum光场相机采集的光场图像同时进入网络训练,训练过程中输入7×7的光场图像子视点阵列.共使用180组光场数据,其中,120组光场图像用来训练,20组光场图像用来评估模型,40组光场图像用来测试.

使用PyTorch框架在Titan X GPU上进行网络训练,采用Adam优化器更新参数,学习率设置为2E-4,训练和测试的批量大小分别取2和1,训练次数epoch设为500,λ1λ2分别设为0.04和0.01.不同λ1λ2实验结果的峰值信号比(Peak Signal to Noise Ratio,PSNR)与结构相似性(Structural Similarity,SSIM)的平均值如表1所示,表中黑体字是最优结果.由表可见,本文拟定的深度神经网络参数可以使实验结果达到一个理想的指标.

表1   不同超参数的PSNRSSIM平均值

Table 1  Average value of PSNR and SSIM under different hyperparameters

SettingsS1S2S3S4S5S6
λ10.020.020.040.040.060.06
λ20.010.020.010.020.010.02
PSNR31.3730.8934.4633.7832.8632.02
SSIM0.9210.9160.9630.9420.9310.928

新窗口打开| 下载CSV


实验阶段,首先将低亮度的光场图像输入4D Zero⁃DCE⁃Net中实现亮度增强,将经过降采样得到的低分辨率光场图像输入由Transformer和4D残差卷积以并行方式结合的网络中提取全局和局部特征;接着,进入IFAM中融合两者的信息,再进入PS⁃PA中得到高分辨率的光场图像.4D Zero⁃DCE⁃Net在训练时,输入低亮度的光场图像作为训练集进行无监督的训练,得到一个最优模型,再将测试集输入模型进行测试.超分辨率网络在训练时,将低分辨率的光场图像作为训练集和验证集输入网络来训练模型,得到一个最优的模型.将测试集输入模型中进行测试,然后利用真值对测试结果进行评估来判断模型的性能.这里注意,超分辨率网络模型输入的是已经提高亮度后的低分辨率图像.

2.2 光场图像亮度增强结果定量分析

对光场图像亮度增强的结果进行评估,由于没有真值和参考图,所以利用自然图像质量评估器(NIQE)进行定量比较.NIQE是一种无参考图像质量评估工具,NIQE越低表示图像的视觉质量越好.如表2所示,亮度增强后的图像的NIQE明显低于输入图像,图像的质量也更好.

表2   光场图像亮度增强的定量比较结果

Table 2  Quantitative comparison results of light field image brightness enhancement

InputNIQE↓
Original image4.235
Result3.363

新窗口打开| 下载CSV


2.3 光场图像亮度增强结果定性分析

光场图像亮度增强的结果如图3所示,图中第一行和第三行是原始的光场图像,第二行和第四行是亮度增强后的结果.由图可见,提亮后的光场图像视觉效果更好,一些细节更清晰.

图3

图3   光场图像亮度增强结果

Fig.3   Brightness enhancement results of light field images


2.4 图像超分辨率结果定量分析 将本文算法与基于优化的超分辨率算法13以及基于深度学习的算法21-2227-28进行定量分析对比,其中Dai et al27,Jo et al28分别是单张图像和视频图像的超分辨率算法.为了实验的公平性,所有算法都在我们的训练数据集上训练,在7×7光场的中心子视点上采用PSNRSSIMPI (Perceptual

Index)29以及BRISQUE (Blind/Referenceless Image Spatial Quality Evaluator)30四个度量标准来对本文的算法和其他算法进行定量分析.其中,PI用来评估图像的感知质量,BRISQUE用来评估在空间域图像的质量,PIBRISQUE越低,图像的质量越高.定量分析结果如表3所示,表中黑体字表示最优的结果.由表可见,本文算法的PSNRSSIM均高于其他算法,PIBRISQUE也都低于其他算法.

表3   光场超分辨率的定量比较结果(40组测试数据)

Table 3  Quantitative comparison results of light field super⁃resolution(40 arrays of test data)

MethodPSNRSSIMPIBRISQUE
Ours34.460.9635.2342.29
Bicubic25.670.8028.4766.87
SAN[27]30.880.9126.2250.36
DUF[28]30.450.9026.2651.07
GB[13]28.170.8656.4857.62
LFSR⁃ATO[22]31.150.9286.1649.29
LFIT[21]32.220.9346.0148.53

新窗口打开| 下载CSV


本文也在自己采集的光场图像上进行测试,由于采集的光场图像没有经过降采样操作直接输入网络进行测试,所以没有其对应的高分辨率图像,只能利用PI来评估结果.如图4图9所示,每张图下都标注了各算法结果对应的PI,可以看出,本文算法的PI是最低的,因而图像的感知质量是最高的.

图4

图4   光场图像超分辨率结果比较 (场景1)

Fig.4   Super⁃resolution results of light field images (Scene 1)


图5

图5   光场图像超分辨率结果比较(场景2)

Fig.5   Super⁃resolution results of light field images (Scene 2)


图6

图6   光场图像超分辨率结果比较(场景3)

Fig.6   Super⁃resolution results of light field images (Scene 3)


图7

图7   光场图像超分辨率结果比较(场景4)

Fig.7   Super⁃resolution results of light field images (Scene 4)


图8

图8   光场图像超分辨率结果比较(场景5)

Fig.8   Super⁃resolution results of light field images (Scene 5)


图9

图9   光场图像超分辨率结果比较(场景6)

Fig.9   Super⁃resolution results of light field images (Scene 6)


2.5 图像超分辨率结果定性分析

图4图5图6所示,第一行从左到右依次是插值、Dai et al27、Jo et al28和Rossi and Frossard14的实验结果,第二行从左到右依次是Jin et al22、Wang et al21、本文算法的结果和真值(GT).由图可见,Wang et al21和Jin et al22的算法表现良好,Dai et al27和Jo et al28的算法在某些场景的结果也不错,但在纹理区域上还有一定程度的模糊,而本文算法的结果更加锐利,在一些复杂的场景的优势更明显.由图4可见,Wang et al21的算法表现优于前面几个算法,但也没本文算法的结果锐利.

本文还在自己采集的数据集上进行了定性分析,结果是本文算法的结果明显优于其他算法.如图7图8所示,本文算法在文字的细节恢复方面明显好于其他算法.图9的结果也远胜其他算法.同时可以看出,Rossi and Frossard14和Wang et al21的算法在重建过程中损失了很多高频细节信息.更多的实验结果请参考https:∥github.com/jhh1996/LFSR/tree/main/experiment.

2.6 消融实验

为了证明提出的模块能有效地提高算法性能,进行了四组消融实验:用残差卷积来代替IFAM融合两个分支的信息、PS⁃PA去掉像素注意力模块只用PixelShuffle、利用另外一个4D残差卷积网络代替Transformer分支提取特征以及利用另外一个Transformer代替4D残差卷积网络分支来提取特征.实验结果如表4所示,表中黑体字表示最优结果.由表可见,本文提出的融合模块和改进的重建模块明显好于基础模块.IFAM和残差卷积能有效地融合两个分支的信息并增强细节信息,重建模块引入像素注意力模块后使网络更加关注有用的信息,从而有利于图像细节信息的恢复.从表4还可以看出,第一种情况利用另外一个4D残差卷积网络代替Transformer分支提取特征,缺少了全局信息;第二种情况只利用Transformer提取特征,缺少了局部细节信息,这两种情况下模型的性能都明显下降.

表4   不同模块的超分辨率结果

Table 4  Super resolution results of different modules

ModelPSNRSSIMPIBRISQUE
Ours34.460.9635.2342.29
Concat+Res32.430.9325.9547.84
PixelShuffle33.580.9545.8246.56
Dual 4D Resnet31.680.9266.0848.45
Dual Transformer31.450.9236.1148.89

新窗口打开| 下载CSV


3 结论

本文利用无监督的4D深度学习网络模型对光场图像进行亮度增强,提高初始图像传递信息的质量;提出一种基于深度神经网络的光场图像空间超分辨率算法,通过Transformer和4D卷积两个网络分支充分利用光场全部子视点之间的信息,以一个较浅的网络层捕捉到图像的全局和局部细节信息;通过IFAM将上述两个分支获得的信息有效地融合在一起,最后进入PS⁃PA重建模块得到高分辨率的光场图像.在真实光场数据集上的实验结果表明,本文算法能有效地提高整个光场的空间超分辨率,与其他算法相比,细节恢复得更好.但是,真实场景的光场图像内容往往比较复杂,所以本文的实验结果在一些细节方面的修复还不够好,下一步需要研究改进网络模型和训练策略,可以借助高分辨率的单反图来进一步提升光场图像超分辨率的质量.

参考文献

Fiss JCurless BSzeliski R.

Refocusing plenoptic images using depth⁃adaptive splatting

2014 IEEE International Conference on Computational Photography. Santa Clara,CA,USAIEEE20141-9.

[本文引用: 1]

Zhu HWang QYu J Y.

Occlusion⁃model guided antiocclusion depth estimation in light field

IEEE Journal of Selected Topics in Signal Processing,201711(7):965-978.

[本文引用: 1]

Kim CZimmer HPritch Yet al.

Scene reconstruction from high spatio⁃angular resolution light fields

ACM Transactions on Graphics,201332(4):73.

Zhu HZhang QWang Q.

4D light field superpixel and segmentation

2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu,HI,USAIEEE20176709-6717.

Si L PWang Q.

Dense depth⁃map estimation and geometry inference from light fields via global optimization

Proceedings of the 13th Asian Conference on Computer Vision. Springer Berlin Heidelberg201683-98.

[本文引用: 1]

Huang F CLuebke DWetzstein G.

The light field stereoscope

ACM SIGGRAPH 2015 Emerging Technologies. Los Angeles,CA,USAACM2015:Article No.24.

[本文引用: 1]

Yu J Y.

A light⁃field journey to virtual reality

IEEE MultiMedia,201724(2):104-112.

[本文引用: 1]

Srinivasan P PNg RRamamoorthi R.

Light field blind motion deblurring

2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu,HI,USAIEEE20172354-2362.

[本文引用: 1]

Ding Y YLi M YYan Tet al.

Rain streak removal from light field images

IEEE Transactions on Circuits and Systems for Video Technology202232(2):467-482.

[本文引用: 1]

Wanner SGoldluecke B.

Spatial and angular variational super⁃resolution of 4D light fields

European Proceedings of the 12th Conference on Computer Vision. Springer Berlin Heidelberg,2012608-621.

[本文引用: 1]

Wanner SGoldluecke B.

Variational light field analysis for disparity estimation and super⁃resolution

IEEE Transactions on Pattern Analysis and Machine Intelligence,201436(3):606-619.

[本文引用: 1]

Mitra KVeeraraghavan A.

Light field denoising,light field superresolution and stereo camera based refocussing using a GMM light field patch prior

2012 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops. Providence,RI,USAIEEE201222-28.

[本文引用: 1]

Cho DLee MKim Set al.

Modeling the calibration pipeline of the Lytro camera for high quality light⁃field image reconstruction

2013 IEEE International Conference on Computer Vision. Sydney,AustraliaIEEE20133280-3287.

[本文引用: 3]

Rossi MFrossard P.

Geometry⁃consistent light field super⁃resolution via graph⁃based regularization

IEEE Transactions on Image Processing,201827(9):4207-4218.

[本文引用: 3]

Yoon YJeon H GYoo Det al.

Learning a deep convolutional network for light⁃field image super⁃resolution

2015 IEEE International Conference on Computer Vision Workshop. Santiago,ChileIEEE201557-65.

[本文引用: 1]

Yoon YJeon H GYoo Det al.

Light⁃field image super⁃resolution using convolutional neural network

IEEE Signal Processing Letters,201724(6):848-852.

[本文引用: 1]

Wang Y LLiu FZhang K Bet al.

LFNet:A novel bidirectional recurrent convolutional neural network for light⁃field image super⁃resolution

IEEE Transactions on Image Processing,201827(9):4274-4286.

[本文引用: 1]

Zhang SLin Y FSheng H.

Residual networks for light field image super⁃resolution

2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach,CA,USAIEEE201911038-11047.

[本文引用: 1]

Yeung H W FHou J HChen X Met al.

Light field spatial super⁃resolution using deep efficient spatial⁃angular separable convolution

IEEE Transactions on Image Processing,201928(5):2319-2330.

[本文引用: 1]

Meng NSo H K HSun Xet al.

High⁃dimensional dense residual convolutional neural network for light field reconstruction

IEEE Transactions on Pattern Analysis and Machine Intelligence,202143(3):873-886.

[本文引用: 1]

Wang Y QWang L GYang J Get al.

Spatial⁃angular interaction for light field image super⁃resolution

Proceedings of the 16th European Conference on Computer Vision. Springer Berlin Heidelberg2020290-308.

[本文引用: 7]

Jin JHou J HChen Jet al.

Light field spatial super⁃resolution via deep combinatorial geometry embedding and structural consistency regularization

2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle,WA,USAIEEE20202257-2266.

[本文引用: 5]

Guo C LLi C YGuo J Cet al.

Zero⁃reference deep curve estimation for low⁃light image enhancement

2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle,WA,USAIEEE20201777-1786.

[本文引用: 3]

Jiang Y FGong X YLiu Det al.

EnlightenGAN:Deep light enhancement without paired supervision

IEEE Transactions on Image Processing,2021(30):2340-2349.

[本文引用: 2]

Bertasius GWang HTorresani L.

Is space⁃time attention all you need for video understanding?

2021,arXiv:.

[本文引用: 2]

Dai TCai J RZhang Y Bet al.

Second⁃order attention network for single image super⁃resolution

2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach,CA,USAIEEE201911057-11066.

[本文引用: 5]

Jo YOh S WKang Jet al.

Deep video super⁃resolution network using dynamic upsampling filters without explicit motion compensation

2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City,UT,USAIEEE20183224-3232.

[本文引用: 5]

Vasu SMadam N TRajagopalan A N.

Analyzing perception⁃distortion tradeoff using enhanced perceptual super⁃resolution network

European Conference on Computer Vision. Springer Berlin Heidelberg,2018114-131.

[本文引用: 1]

Mittal AMoorthy A KBovik A C.

No⁃reference image quality assessment in the spatial domain

IEEE Transactions on Image Processing,201221(12):4695-4708.

[本文引用: 1]

/