世界新消息丨Single Image SR Using Lightweight Networks Based on Swin Transfo

2023-06-28 13:28:16 来源: 哔哩哔哩

Single Image Super-Resolution Using LightweightNetworks Based on Swin Transformer(2022,Image and Video Processing ())

文章主要问题

减少图片超分模型复杂度

结论


(资料图)

Innovation

提出两个网络:MSwinSR(SwinIR结构+用MSTB代替RSTB)和UGSwinSR(U-net+GAN with swin Transformer)

MSTB:Multi-size swin Transformer Block

RSTB:Residural swin T燃烧former Block

MSwinSR:用了不同的四个并行注意力窗口,减少了MLP数量,并且通过增加网络宽度来减少网络深度(定量指标PSNR,SSIM更好)

UGSwinSR:用U-net减少计算量(感知指标LPIPS更好),通过下采样提取图片深层特征,破坏原始图像信息,用Bicubic来得到HR

Network Architecture

SwinIR

复杂度计算

W-MSA复杂度计算:Ω(=W −MSA) = 4hwC2 + 2M 2hwC

LR(h x w x Cin)→【浅层特征提取】→Feature Map(通道数=C)

省略了softmax和bias

RSTB复杂度计算

MSwinSR(SwinIR结构+用MSTB取代RSTB)

All

[x,z,y]表示第1stage个中有x个MSTB+Conv+Residual;第2stage个中有z个MSTB+Conv+Residual;第3stage个中有y个MSTB+Conv+Residual

[2,2,2],其depth=MSTB数量(s表示图片放大比例)

MSTB

四种W-MSA

loss:L1

UGSwinSR include:G+D+U-net

Depth=下采样次数

下采样过程会使得feature map参数量上升,而参数量与之密切相关:通过pooling 或 conv strides=2 下采样了以后,输出的长宽变小了,为了防止特征信息丢失,输出通道数要加倍。

G:下采样+上采样→减少计算量

D:下采样→从生成图和真图中挖掘深层特征

U-net:减少卷积层,减轻计算负担

U-net网络一共有四层,分别对图片进行了4次下采样和4次上采样/qq_33924470/article/details/106891015

下采样每一层=【两次卷积来提取图像特征】→【池化下采样:把图片减小一半】

第一层=input:572×572×1→【64个3×3的卷积】→64个570×570×1→【ReLU】→570×570×64→【64个3×3的卷积】→【ReLU】→568×568×64→【2×2的池化】→284×284×64

每下一层,卷积核数目增加一倍,即第一层为64个卷积核,第二层为128个卷积核,以此类推

上采样每一层=【两次卷积来提取特征】→【反卷积上采样把图片扩大一倍】

28x28x1024→【512个2×2反卷积】→56x56x512→【把左边下采样时的图片裁剪成相同大小后直接拼过来的方法增加特征层(左半边白色部分的512个特征通道)】→56×56×1024→【512个3x3卷积】→【ReLU】→54×54×512→【512个3x3卷积】→【ReLU】→52×52×512→【256个2×2反卷积】→104x104x256

每上一层,卷积核数目减少一半,

由于每一次valid卷积(3x3)都会使得结果变小一圈,因此每次拼接之前都需要先把左边下采样过程中的图片进行裁剪成相同大小后直接拼过来的方法增加特征层

perceptual loss

loss

L1与L2比较:L2对差异较大的像素值的loss更大,更适合于差异较小的像素值,会导致过于平滑

L1:Mean-Absolute Error,MAE

Experiment

Dataset

CelebA:202599张178x218HR人脸→图像中心裁剪,大小变为178x178→【双立方插值】→256x256→【双立方下采样】→64x64LR

training:10000

validation dataset:100

Setup

Epoch=100

Batch=20

Adam优化器

Learning Rate=,指数衰减率为和

Embedding Layer后通道数C=60

Result

LPIPS:Learned Perceptual Image Patch Similarity→用于度量两张图之间的差距,也称为Perceptual Loss

与SwinIR相比,MSwinSR增加了的PSNR,参数的数量减少%,计算成本可以减少%。UGSwinSR与SwinIR相比可以减少%的计算量。

UGSwinSR的性能随着网络深度上升而下降的原因

可能是由于训练图像尺寸小,过度下采样忽略了图像的整体连续性,而过于关注局部细节

other

SwinIR的优缺点

优点:参数少,重建图像的客观质量高

缺点:

(1)由于捕捉注意力机制是通过源图像的全局信息来实现的,所以整体重建图像比较平滑,而一些局部细节很难被检测到。这对分辨率较

标签:

[责任编辑:]

最近更新