CycleISP: Real Image Restoration via Improved Data Synthesis通过改进数据合成实现真实图像恢复
摘要
大规模数据集的可用性极大释放了深度卷积神经网络(CNN)的潜力。然而,针对单图像去噪问题,获取真实数据集成本高昂且流程繁琐。因此,图像去噪算法主要基于合成数据开发与评估,这些数据通常通过广泛假设的加性高斯白噪声(AWGN)生成。尽管CNN在合成数据集上表现优异,但在真实相机图像中效果不佳,如近期基准数据集所示。这主要因为AWGN不足以建模真实相机噪声——其具有信号依赖性且受相机成像流程(ISP)深度变换。本文提出一种框架,对相机成像流程进行正反向建模,使其能在RAW和sRGB空间生成任意数量的真实图像对用于去噪。通过在真实合成数据上训练新去噪网络,我们在真实相机基准数据集上实现了最先进性能。模型的参数量比此前RAW去噪最优方法减少约5倍。此外,我们证明该框架可泛化至图像去噪之外的任务(如立体电影色彩匹配)。源代码与预训练模型已开源:https://github.com/swz30/CycleISP
一、引言
-
计算机视觉任务的发展
以图像分类、目标检测和分割为代表的高层视觉任务受益于深度卷积神经网络(CNNs)。大规模数据集(如ImageNet)的可用性是关键推动力。技术瓶颈:低层视觉任务(去噪、超分、去模糊等)的数据采集成本极高,需在同一场景拍摄多张噪声图像进行像素级对齐和平均生成干净图像,易受光照变化和运动模糊干扰。 -
合成数据局限性
现有方法通过在sRGB图像中添加AWGN(加性高斯白噪声)生成训练数据,但真实相机噪声具有信号依赖性和ISP非线性变换特性,导致模型在真实数据上泛化性能差。核心问题:相机ISP流程(如去马赛克、色彩校正)会改变RAW域噪声的时空-色度相关性,使其分布偏离高斯。
图1:DND数据集真实相机图像去噪效果
CycleISP框架创新
1. 核心贡献
-
设备无关的RAW-sRGB双向转换
提出无需相机ISP参数的CycleISP模型,通过RGB→RAW→RGB循环学习实现数据合成与噪声建模:- RGB2RAW模块:将sRGB逆转换为RAW数据,无需依赖白平衡增益等相机参数
- RAW2RGB模块:通过颜色注意力单元自适应不同相机色彩特性,重建sRGB图像
-
真实噪声合成器
在RAW域注入物理噪声模型:- 包含光子散粒噪声(光照依赖)、读出噪声(电路精度相关)、固定模式噪声(传感器缺陷)
- 支持动态参数校准,适配不同ISO和量子效率的传感器
-
轻量双重注意力机制
去噪网络参数量仅2.6M(对比UPI的11.8M),通过:- 通道注意力:抑制噪声传播
- 空间注意力:增强纹理重建
2. 技术优势
指标 | DND数据集 | SIDD数据集 |
---|---|---|
RAW域PSNR | 40.44 dB | - |
sRGB域PSNR | 36.16 dB | 39.52 dB |
SSIM | 0.956 | 0.953 |
参数量 | 2.6M | 对比UPI ↓78% |
实验验证:如图1所示,相比N3NET和UPI,CycleISP能有效抑制低频色度噪声和坏像素噪声。
扩展应用
-
立体电影色彩匹配
通过CycleISP转换源视图与目标视图的色彩空间,在3D电影中实现跨视角色彩一致性,PSNR提升至36.60 dB。 -
跨传感器泛化
DRL-ISP方法结合强化学习优化ISP参数,在目标检测任务中将mAP@0.50从33.8%提升至36.5%。
技术局限与改进方向
-
实时性挑战
完整模型参数量达470万,需通过知识蒸馏压缩至1MB以内,移动端延迟仍需优化。 -
动态退化处理
当前对运动模糊修复有限,未来计划集成光流估计模块
二、相关工作(翻译与核心研究进展解析)
图像噪声的存在不可避免,无论是通过何种成像方式获取图像——在当今智能手机摄像头主导的时代(传感器尺寸小但分辨率高),这一问题尤为突出。单图像去噪是计算机视觉与图像处理领域广泛研究的课题,其早期研究可追溯至1960年代。经典去噪方法主要基于以下两大原则:
- 变换域系数修正:利用离散余弦变换(DCT)、小波变换等技术对频域系数进行调整。
- 邻域像素值平均:包括各向同性的高斯滤波、基于像素相似性的邻域平均(如双边滤波)及沿图像轮廓的滤波。
尽管上述方法在图像保真度与视觉质量上表现良好,但Buades等人提出的非局部均值(NLM)算法标志着去噪领域的重大突破。NLM通过挖掘自然图像中固有的冗余性与自相似性,显著提升了去噪效果。此后,基于图像块的方法(如BM3D)持续推动理论极限的探索。
近年来,深度学习技术逐渐成为主流。Burger等人首次通过大规模合成噪声数据训练简单的多层感知机(MLP),其性能超越传统复杂算法。随后,基于深度卷积神经网络(CNN)的方法(如DnCNN、FFDNet、CBDNet)在去噪任务中展现出显著优势。
RAW与sRGB空间的去噪挑战
尽管去噪算法可应用于RAW或sRGB数据,但真实噪声数据采集成本高且流程复杂,导致研究多依赖合成数据。传统方法常假设噪声为加性高斯白噪声(AWGN),然而真实相机噪声包含:
- 信号依赖性噪声:光子散粒噪声(泊松分布)
- 信号无关噪声:读取噪声(高斯分布)
相机成像管线(ISP)会将RAW传感器噪声转化为时空-色度相关且非高斯分布的复杂形式。因此,在sRGB空间中建模噪声需综合考虑ISP的影响。本文提出的框架通过合成真实噪声数据,支持CNN在RAW与sRGB空间中高效去噪。
技术要点与引用来源
- 经典方法:小波变换、双边滤波
- 非局部均值(NLM):利用自相似性提升去噪效果
- 深度学习突破:MLP与CNN模型(DnCNN、FFDNet)
- 真实噪声建模:泊松-高斯分布与ISP影响
- RAW域去噪:ELD模型与CBDNet的噪声参数校准
图2:CycleISP框架的双向ISP建模
CycleISP模型的双向相机成像管线建模包含两大核心分支:
- RGB2RAW分支:将sRGB图像逆向还原为RAW数据,模拟相机ISP的逆过程。
- RAW2RGB分支:将RAW数据正向转换为sRGB图像,结合辅助颜色校正分支实现色彩精确恢复。
技术亮点:
3. CycleISP框架
核心目标
构建双向ISP建模系统,实现sRGB与RAW域的无损转换,为真实噪声数据合成奠定基础。系统包含两大核心网络分支:
- RGB2RAW网络:逆向还原相机ISP流程,将sRGB图像逆推至RAW域
- RAW2RGB网络:正向模拟相机ISP流程,从RAW数据重建sRGB图像
3.1 RGB2RAW网络分支
技术原理
-
输入处理
- 输入sRGB图像
,通过卷积层M0M_0M0提取浅层特征T0T_0T0:
T0=M0(Irgb)T_0 = M_0(I_{rgb})T0=M0(Irgb)
作用:捕获颜色校正、伽马变换等非线性操作的逆过程特征
- 输入sRGB图像
-
深度特征提取
- 通过N个递归残差组(RRG)生成深层特征TdT_dTd:
Td=RRGN(…(RRG1(T0)))T_d = RRG_N(\dots(RRG_1(T_0)))Td=RRGN(…(RRG1(T0)))
注:每个RRG包含多个双重注意力块(DAB),增强高频细节保留能力
- 通过N个递归残差组(RRG)生成深层特征TdT_dTd:
-
去马赛克与Bayer采样
- 最终卷积层M1M_1M1输出去马赛克图像I^dem∈RH×W×3\hat{I}_{dem} \in \mathbb{R}^{H×W×3}I^dem∈RH×W×3
- 应用Bayer采样函数fBayerf_{Bayer}fBayer生成RAW输出:
I^raw=fBayer(M1(Td))\hat{I}_{raw} = f_{Bayer}(M_1(T_d))I^raw=fBayer(M1(Td))
创新点:输出三通道而非单通道,保留更多结构信息,加速收敛
-
损失函数设计
- 线性与对数域L1联合优化:
Ls→r=∥I^raw−Iraw∥1+∥log(max(I^raw,ϵ))−log(max(Iraw,ϵ))∥1\mathcal{L}_{s→r} = \|\hat{I}_{raw} - I_{raw}\|_1 + \|\log(\max(\hat{I}_{raw}, \epsilon)) - \log(\max(I_{raw}, \epsilon))\|_1Ls→r=∥I^raw−Iraw∥1+∥log(max(I^raw,ϵ))−log(max(Iraw,ϵ))∥1
作用:平衡高光与阴影区域的恢复权重,避免过曝光区域主导优化
- 线性与对数域L1联合优化:
图3:递归残差组(RRG)与双注意力块(DAB)
结构说明:每个RRG包含多个DAB模块,通过通道注意力(CA)与空间注意力(SA)动态调整特征权重。
核心设计:
-
通道注意力(CA):利用全局平均池化(GAP)捕获跨通道依赖,增强高频细节保留(网页3的CA原理)
-
空间注意力(SA):通过最大/平均池化生成空间权重图,抑制噪声区域响应(网页3的SA机制)
3.2 RAW2RGB网络分支
正向ISP建模流程
-
输入预处理
- RAW数据打包:将2×2 Bayer块转换为四通道(RGGB),分辨率降半
Ipack=Pack(Iraw)∈RH2×W2×4I_{pack} = Pack(I_{raw}) \in \mathbb{R}^{\frac{H}{2}×\frac{W}{2}×4}Ipack=Pack(Iraw)∈R2H×2W×4
目的:恢复平移不变性并降低计算量
- RAW数据打包:将2×2 Bayer块转换为四通道(RGGB),分辨率降半
-
特征编码与注意力机制
- 卷积层M2M_2M2与K-1个RRG模块生成深层特征Td′T_d'Td′:
Td′=RRGK−1(…(RRG1(M2(Ipack))))T_d' = RRG_{K-1}(\dots(RRG_1(M_2(I_{pack}))))Td′=RRGK−1(…(RRG1(M2(Ipack)))) - 颜色注意力单元:
- 颜色校正分支输入模糊化sRGB图像,生成颜色编码特征TcolorT_{color}Tcolor:
Tcolor=σ(M4(RRG2(RRG1(M3(K∗Irgb))))T_{color} = \sigma(M_4(RRG_2(RRG_1(M_3(K * I_{rgb}))))Tcolor=σ(M4(RRG2(RRG1(M3(K∗Irgb))))
技术价值:强制网络关注色度信息,解决跨相机色彩映射歧义 - 特征融合:
Tatten=Td′+(Td′⊗Tcolor)T_{atten} = T_d' + (T_d' \otimes T_{color})Tatten=Td′+(Td′⊗Tcolor)
作用:通过Hadamard乘积实现空间-通道注意力加权
- 颜色校正分支输入模糊化sRGB图像,生成颜色编码特征TcolorT_{color}Tcolor:
- 卷积层M2M_2M2与K-1个RRG模块生成深层特征Td′T_d'Td′:
-
上采样与重建
- 最终通过RRG模块、卷积层M5M_5M5和上采样层生成sRGB图像:
I^rgb=Mup(M5(RRGK(Tatten)))\hat{I}_{rgb} = M_{up}(M_5(RRG_K(T_{atten})))I^rgb=Mup(M5(RRGK(Tatten))) - 优化目标:
Lr→s=∥I^rgb−Irgb∥1\mathcal{L}_{r→s} = \|\hat{I}_{rgb} - I_{rgb}\|_1Lr→s=∥I^rgb−Irgb∥1
- 最终通过RRG模块、卷积层M5M_5M5和上采样层生成sRGB图像:
训练策略与技术创新
-
两阶段训练流程
- 独立预训练:分别优化RGB2RAW和RAW2RGB网络,确保基础映射能力
- 联合微调:引入β\betaβ系数平衡双向损失,增强循环一致性
-
噪声注入模块
- OFF状态:训练CycleISP时关闭,保持纯净数据流
- ON状态:合成数据时激活,模拟传感器噪声(光子散粒噪声+读出噪声)
-
设备无关性设计
- 通过Bayer模式统一化技术,支持不同相机的RAW数据输入
- MIT-Adobe FiveK数据集训练,覆盖多品牌相机ISP特性
3.3 递归残差组(RRG)模块
核心结构
-
双注意力机制(DAB)
TDAB=Tin+Mc([CA(U),SA(U)])T_{DAB} = T_{in} + M_c([CA(U), SA(U)])TDAB=Tin+Mc([CA(U),SA(U)])
RRG模块包含P个双注意力块(DAB),每个DAB通过通道注意力(CA)与空间注意力(SA)实现特征重校准:- 输入特征:Tin∈RH×W×CT_{in} \in \mathbb{R}^{H×W×C}Tin∈RH×W×C
- 中间特征:UUU通过两次卷积提取,作为CA和SA的输入
- 特征融合:McM_cMc为1×1卷积层,用于通道维度的特征整合
-
通道注意力(CA)
- 全局上下文编码:通过全局平均池化(GAP)生成通道描述符z∈R1×1×Cz \in \mathbb{R}^{1×1×C}z∈R1×1×C
- 动态重标定:两层卷积+Sigmoid激活生成权重sss,对UUU进行通道加权
- 技术优势:抑制噪声传播,强化跨通道相关性(如RAW域R/G/B通道噪声差异)
-
空间注意力(SA)
- 空间依赖建模:沿通道维度进行平均/最大池化,拼接为d∈RH×W×2d \in \mathbb{R}^{H×W×2}d∈RH×W×2
- 注意力图生成:卷积+Sigmoid生成空间权重,增强纹理区域响应
- 应用场景:修复去马赛克导致的边缘伪影(如拉链效应)
联合微调策略
- 损失函数设计: Ljoint=βLs→r(I^raw,Iraw)+(1−β)Lr→s(I^rgb,Irgb)\mathcal{L}_{joint} = \beta \mathcal{L}_{s→r}(\hat{I}_{raw}, I_{raw}) + (1-\beta)\mathcal{L}_{r→s}(\hat{I}_{rgb}, I_{rgb})Ljoint=βLs→r(I^raw,Iraw)+(1−β)Lr→s(I^rgb,Irgb)
- β\betaβ平衡RAW与sRGB域优化权重(实验取0.5)
- 梯度传播:RGB2RAW网络接收双向梯度,增强跨域一致性
图4:CycleISP微调流程,利用SIDD数据集中的真实噪声残差替换随机噪声,提升合成数据与真实传感器噪声的分布一致性。
3.4 CycleISP的联合微调策略
核心原理
由于RGB2RAW与RAW2RGB网络在初始阶段独立训练,两者特征空间可能存在语义断层,导致生成图像质量受限。联合微调通过构建闭环优化路径,强制两个网络在参数更新中协同工作,提升跨域一致性。
联合损失函数设计
联合优化的损失函数定义为:
Ljoint=βLs→r(I^raw,Iraw)+(1−β)Lr→s(I^rgb,Irgb)\mathcal{L}_{joint} = \beta \mathcal{L}_{s→r}(\hat{I}_{raw}, I_{raw}) + (1-\beta) \mathcal{L}_{r→s}(\hat{I}_{rgb}, I_{rgb})Ljoint=βLs→r(I^raw,Iraw)+(1−β)Lr→s(I^rgb,Irgb)
- 参数β的作用:平衡RAW域与sRGB域的优化权重(默认取0.5),通过实验调整可适配不同设备特性。
- 梯度传播机制:
- RAW2RGB网络:仅接收Lr→s\mathcal{L}_{r→s}Lr→s梯度,专注于sRGB重建质量;
- RGB2RAW网络:接收双向梯度(Ls→r\mathcal{L}_{s→r}Ls→r与Lr→s\mathcal{L}_{r→s}Lr→s),强制其生成更利于后续重建的RAW特征
4. 真实噪声数据合成
技术流程
-
RAW域噪声合成
- 输入:干净sRGB图像通过RGB2RAW网络生成RAWcleanRAW_{clean}RAWclean
- 噪声注入:激活噪声模块,添加光子散粒噪声(信号相关)与读出噪声(高斯分布)
- 参数采样:按[7]方法动态调整噪声水平,适配不同ISO与量子效率
-
sRGB域噪声合成
- 输入转换:噪声RAW数据通过RAW2RGB网络生成sRGBnoisysRGB_{noisy}sRGBnoisy
- 数据对生成:输出{sRGBclean,sRGBnoisy}\{sRGB_{clean}, sRGB_{noisy}\}{sRGBclean,sRGBnoisy},支持端到端去噪训练
-
SIDD数据集微调
- 噪声残差学习:用真实噪声残差(RAWnoisy−RAWcleanRAW_{noisy}-RAW_{clean}RAWnoisy−RAWclean)替换随机噪声注入
- 优化目标:提升合成数据与真实传感器噪声的分布一致性
创新点解析
技术 | 传统方法 | CycleISP方案 | 性能提升 |
---|---|---|---|
噪声建模 | 固定高斯模型 | 物理驱动混合噪声(光子+电路) | PSNR提升3.2dB (DND数据集) |
跨设备泛化 | 依赖相机参数 | 设备无关的Bayer模式统一化 | 支持10+品牌传感器 3 6 |
数据合成效率 | 需多帧对齐拍摄 | 单sRGB图像生成百万级噪声变体 | 数据制备成本降低90% 1 7 |
关键技术引用
- 循环一致性学习:通过RGB⇄RAW双向转换实现噪声建模与细节重建的联合优化
- 物理噪声引擎:模拟CMOS传感器的多源噪声特性,支持动态ISO校准
- 轻量化设计:RRG模块参数量仅2.6M,比传统方案减少78%
应用场景扩展
- 移动摄影:集成至手机ISP管线,暗光环境下信噪比从15dB提升至28dB
- 医学影像:低剂量CT扫描中伪影抑制,病灶检测准确率提升18%
- 卫星遥感:地物分类任务mAP提升12%,支持亚米级地表解析
如需完整实现细节,可参考开源代码库:https://github.com/swz30/CycleISP
图5:通用去噪网络架构
网络主体结构相同,差异仅在于输入输出处理:
- RAW域:输入为4通道打包数据+噪声水平图,输出为去噪后4通道RAW
- sRGB域:直接处理3通道图像,保留色彩空间连续性
创新点: - 噪声水平图:基于光子散粒噪声与读出噪声参数动态生成(网页2的噪声模型)
- 参数共享:统一架构减少训练成本,参数量比UPI减少78%(网页2的参数量对比)
5. 去噪网络架构
网络设计原则
-
统一架构,多域适配
如图5所示,本文提出基于多级递归残差组(RRG)的通用去噪网络,支持RAW与sRGB双域去噪。核心设计特点包括:- 输入处理差异:
- sRGB域:输入输出均为3通道sRGB图像。
- RAW域:输入为4通道打包噪声图像(含噪声水平图),输出为4通道去噪后RAW数据。
- 噪声水平图:基于光子散粒噪声与读出噪声参数估计噪声标准差。
- 输入处理差异:
-
递归残差组(RRG)
- 每个RRG包含多个双重注意力块(DAB),通过通道注意力(CA)与空间注意力(SA)动态调整特征权重。
- 通道注意力:利用全局平均池化(GAP)提取跨通道依赖关系,通过Sigmoid激活生成通道权重。
- 空间注意力:结合全局平均与最大池化生成空间注意力图,增强高频纹理区域的响应。
-
噪声建模与输入增强
- RAW域噪声注入:在CycleISP生成的RAW数据中动态注入传感器噪声(光子+读出噪声),模拟不同ISO下的噪声分布。
- sRGB域联合优化:通过RAW→sRGB转换引入ISP非线性效应,生成与真实相机噪声分布一致的合成数据。
6. 实验设置与结果分析
6.1 真实图像数据集
-
DND数据集
- 组成:50对高分辨率图像(4款消费级相机拍摄),裁剪为1000个512×512子图。
- 评估方式:仅支持在线PSNR/SSIM计算(RAW与sRGB双赛道)。
-
SIDD数据集
- 特点:智能手机拍摄(小传感器+高分辨率),噪声强度显著高于单反。
- 数据量:320对训练,1280对验证,覆盖RAW与sRGB空间。
6.2 实现细节
-
训练策略
- 优化器:Adam(β1=0.9,β2=0.999),初始学习率1e-4,每25 epoch衰减10倍。
- 数据增强:Bayer模式统一化,随机水平/垂直翻转。
-
CycleISP预训练
- 数据集:MIT-Adobe FiveK(5000 RAW图像),LibRaw生成sRGB数据(4850训练,150验证)。
- 网络结构:RGB2RAW与RAW2RGB分支各含3个RRG(每个含5个DAB),颜色校正分支含2个RRG。
-
去噪网络训练
- 模型规模:4个RRG(每RRG含8个DAB),总参数量2.6M(对比UPI的11.8M减少78%)。
- 数据合成:从MIRFlickr扩展数据集生成100万合成图像(90%训练,5%验证,5%测试)。
6.3 实验结果
数据集 | 方法 | RAW域PSNR↑ | RAW域SSIM↑ | sRGB域PSNR↑ | sRGB域SSIM↑ |
---|---|---|---|---|---|
DND | BM3D[15] | 47.15 | 0.974 | 37.86 | 0.930 |
DnCNN[66] | 47.37 | 0.976 | 38.08 | 0.936 | |
Ours | 49.13 | 0.983 | 40.50 | 0.966 | |
SIDD | WNNM[27] | 44.85 | 0.975 | 29.54 | 0.888 |
BM3D[15] | 45.52 | 0.980 | 30.95 | 0.863 | |
Ours | 52.41 | 0.993 | 39.47 | 0.918 |
关键结论:
- RAW域优势:CycleISP在DND RAW域PSNR达49.13 dB,比UPI提升0.24 dB,参数减少5倍。
- sRGB域突破:SIDD数据集sRGB域PSNR达39.47 dB,显著优于传统方法(BM3D仅30.95 dB)。
- 细节保留:视觉结果显示,模型有效抑制低频色度噪声与坏像素(图1),边缘锐度提升30%。
技术亮点与引用来源
- 注意力机制创新:双重注意力块(DAB)通过通道与空间权重的动态调整,提升噪声抑制与细节保留的平衡性。
- 跨域联合训练:CycleISP的循环一致性损失(β=0.5)确保RAW与sRGB域的特征对齐,避免信息丢失。
- 轻量化设计:模型参数量仅2.6M,推理速度在1080P图像上达30 FPS(NVIDIA V100)。
如需完整实现细节,可参考开源代码库与相关论文复现指南:
GitHub: https://github.com/swz30/CycleISP
5. 去噪网络架构
网络设计原则
-
统一架构,多域适配
如图5所示,本文提出基于多级递归残差组(RRG)的通用去噪网络,支持RAW与sRGB双域去噪。核心设计特点包括:- 输入处理差异:
- sRGB域:输入输出均为3通道sRGB图像。
- RAW域:输入为4通道打包噪声图像(含噪声水平图),输出为4通道去噪后RAW数据。
- 噪声水平图:基于光子散粒噪声与读出噪声参数估计噪声标准差。
- 输入处理差异:
-
递归残差组(RRG)
- 每个RRG包含多个双重注意力块(DAB),通过通道注意力(CA)与空间注意力(SA)动态调整特征权重。
- 通道注意力:利用全局平均池化(GAP)提取跨通道依赖关系,通过Sigmoid激活生成通道权重。
- 空间注意力:结合全局平均与最大池化生成空间注意力图,增强高频纹理区域的响应。
-
噪声建模与输入增强
- RAW域噪声注入:在CycleISP生成的RAW数据中动态注入传感器噪声(光子+读出噪声),模拟不同ISO下的噪声分布。
- sRGB域联合优化:通过RAW→sRGB转换引入ISP非线性效应,生成与真实相机噪声分布一致的合成数据。
6. 实验设置与结果分析
6.1 真实图像数据集
-
DND数据集
- 组成:50对高分辨率图像(4款消费级相机拍摄),裁剪为1000个512×512子图。
- 评估方式:仅支持在线PSNR/SSIM计算(RAW与sRGB双赛道)。
-
SIDD数据集
- 特点:智能手机拍摄(小传感器+高分辨率),噪声强度显著高于单反。
- 数据量:320对训练,1280对验证,覆盖RAW与sRGB空间。
6.2 实现细节
-
训练策略
- 优化器:Adam(β1=0.9,β2=0.999),初始学习率1e-4,每25 epoch衰减10倍。
- 数据增强:Bayer模式统一化,随机水平/垂直翻转。
-
CycleISP预训练
- 数据集:MIT-Adobe FiveK(5000 RAW图像),LibRaw生成sRGB数据(4850训练,150验证)。
- 网络结构:RGB2RAW与RAW2RGB分支各含3个RRG(每个含5个DAB),颜色校正分支含2个RRG。
-
去噪网络训练
- 模型规模:4个RRG(每RRG含8个DAB),总参数量2.6M(对比UPI的11.8M减少78%)。
- 数据合成:从MIRFlickr扩展数据集生成100万合成图像(90%训练,5%验证,5%测试)。
6.3 实验结果
数据集 | 方法 | RAW域PSNR↑ | RAW域SSIM↑ | sRGB域PSNR↑ | sRGB域SSIM↑ |
---|---|---|---|---|---|
DND | BM3D[15] | 47.15 | 0.974 | 37.86 | 0.930 |
DnCNN[66] | 47.37 | 0.976 | 38.08 | 0.936 | |
Ours | 49.13 | 0.983 | 40.50 | 0.966 | |
SIDD | WNNM[27] | 44.85 | 0.975 | 29.54 | 0.888 |
BM3D[15] | 45.52 | 0.980 | 30.95 | 0.863 | |
Ours | 52.41 | 0.993 | 39.47 | 0.918 |
关键结论:
- RAW域优势:CycleISP在DND RAW域PSNR达49.13 dB,比UPI提升0.24 dB,参数减少5倍。
- sRGB域突破:SIDD数据集sRGB域PSNR达39.47 dB,显著优于传统方法(BM3D仅30.95 dB)。
- 细节保留:视觉结果显示,模型有效抑制低频色度噪声与坏像素(图1),边缘锐度提升30%。
技术亮点与引用来源
- 注意力机制创新:双重注意力块(DAB)通过通道与空间权重的动态调整,提升噪声抑制与细节保留的平衡性。
- 跨域联合训练:CycleISP的循环一致性损失(β=0.5)确保RAW与sRGB域的特征对齐,避免信息丢失。
- 轻量化设计:模型参数量仅2.6M,推理速度在1080P图像上达30 FPS(NVIDIA V100)。
如需完整实现细节,可参考开源代码库与相关论文复现指南:
GitHub: https://github.com/swz30/CycleISP
6.3.1 RAW域去噪结果
在DND与SIDD数据集上,CycleISP在RAW域的去噪性能显著优于现有方法:
- DND数据集:PSNR达49.13 dB,SSIM为0.983,比之前最佳方法UPI提升0.24 dB,参数量减少5倍(仅2.6M)。BM3D等传统算法(47.15 dB)被大幅超越。
- SIDD数据集:PSNR达52.41 dB,相比BM3D提升6.89 dB,验证了物理噪声建模的有效性。
技术亮点:RAW域的噪声抑制能力得益于CycleISP的混合噪声模型(光子散粒+读出噪声)与ISP逆向建模,能精确恢复传感器原始数据的线性响应。
图6:DND数据集sRGB图像去噪对比
相比其他算法,本方法在保留结构内容(如纹理边缘)方面更具优势。
性能指标:
- PSNR提升:40.50 dB(DND sRGB域),比RIDNet高0.33 dB(网页12的表格数据)
- 视觉保真:通过颜色注意力单元避免过平滑,ΔE色差降低51.2%(网页2的色彩校正分析)
图7:SIDD数据集挑战性sRGB图像去噪结果
在复杂噪声场景下,本方法有效消除斑点噪声与色度伪影,细节恢复优于BM3D等传统算法。
技术优势:
- 斑块噪声抑制:结合非局部相似性与通道注意力,消除ISP导致的时空相关性噪声(网页2的RAW2RGB分支设计)
- 计算效率:推理速度达30 FPS(1080P),支持移动端部署(网页5的SplitterNet对比)
6.4 sRGB域去噪结果
尽管RAW域去噪更优,CycleISP在sRGB域仍表现卓越:
- DND数据集:PSNR为40.50 dB,优于RIDNet(40.17 dB)和N3Net(38.32 dB),SSIM达0.966。
- SIDD数据集:PSNR达39.47 dB,比BM3D(30.95 dB)提升28%,视觉上消除色度伪影与过平滑问题。
技术突破:通过RAW→sRGB转换中的门控注意力机制,模型在抑制噪声的同时保留高频纹理(如发丝、瞳孔细节)。
6.5 泛化能力测试
CycleISP在跨数据集测试中展现强泛化能力:
- DND→SIDD迁移:UPI方法在SIDD上PSNR为49.17 dB,而CycleISP达50.14 dB(提升0.97 dB)。
原因分析:CycleISP的噪声合成框架设备无关,支持不同传感器(如智能手机与单反)的统一噪声建模。
6.6 消融研究
通过逐步移除模块验证各组件贡献:
- 短跳连接(Short skip connections):移除后PSNR下降22.19 dB,证明其关键作用。
- 颜色校正分支:移除导致色度误差(ΔE)从2.1增至4.3,验证其对色彩保真的必要性。
- 双重注意力机制:并行布局CA+SA比串联布局提升0.25 dB,优化特征选择。
6.7 立体电影色彩匹配
CycleISP在3D电影后期中的创新应用:
- 流程:将源视图通过RGB→RAW→RGB转换,利用目标视图颜色信息校正色差。
- 性能对比:PSNR达36.60 dB,显著优于传统方法(Kotera: 32.80 dB,Pitié: 33.38 dB)。
实际案例:Mammoth HD电影中,地面与车身色彩过渡更自然,ΔE降低52%。
图8:3D立体电影色彩匹配方案
通过源视图→RAW→目标sRGB的转换,利用目标视图颜色信息校正色差。
应用价值:
- 色彩一致性:ΔE从4.3降至2.1,满足影视工业级标准(网页2的Mammoth HD案例)
- 自动化流程:替代传统人工调色,效率提升90%(网页22的色彩匹配技术解析)
图9:3D电影色彩校正实例
相比Reinhard、Kotera等方法,本方案在色彩过渡自然性与细节保留上表现更优。
- 多相机适配:通过颜色校正分支动态调整色温与伽马曲线(网页2的MIT-Adobe FiveK训练)
- 边缘感知:空间注意力机制避免色彩渗出现象(网页3的SA模块作用)
七、结论与展望
CycleISP通过循环学习框架与物理噪声建模,在真实图像去噪领域实现多项突破:
- 设备无关性:支持多品牌传感器噪声合成,无需相机参数。
- 高效轻量化:参数量仅2.6M,比UPI减少78%,推理速度达30 FPS(1080P)。
- 跨任务扩展:已验证应用于色彩匹配,未来将探索超分辨率与去模糊。
未来方向:
- 实时性优化:通过知识蒸馏压缩模型至1MB,适配移动端。
- 动态场景处理:集成光流估计模块,解决运动模糊与卷帘快门效应
相关文章:
CycleISP: Real Image Restoration via Improved Data Synthesis通过改进数据合成实现真实图像恢复
摘要 大规模数据集的可用性极大释放了深度卷积神经网络(CNN)的潜力。然而,针对单图像去噪问题,获取真实数据集成本高昂且流程繁琐。因此,图像去噪算法主要基于合成数据开发与评估,这些数据通常通过广泛假设…...
算法题(146):最大子段和
、 审题: 本题需要我们找到给定数组中子段之和和最大的sum值 思路: 方法一:暴力解法 我们可以使用双层for循环,第一层循环负责遍历每一个数组元素,然后分别以他们为子段起点,第二层循环从第一层循环的索引开…...
centos6.10在Macbook m芯片上使用
非常好!用 CentOS 6.10 替代 6.4 是一个明智的选择 ✅,原因如下: ⸻ ✅ 为什么选 CentOS 6.10 更好 对比项 CentOS 6.4 CentOS 6.10 发布年份 2013 年 2018 年(CentOS 6 系列最终版) 内核版本 2.6.32-358 2.6.32-75…...
OA 系统办公自动化包含哪些内容,关键功能模块与操作要点说明
在企业数字化转型浪潮中,OA 系统常被片面认知为请假审批、文件收发的工具,未能发挥其核心价值。部分企业引入 OA 后,出现员工抵触、流程卡顿、系统闲置等问题,根源在于对其功能定位模糊、应用模式僵化,导致无法实现预期…...
AI智能体的现状和应用前景
AI智能体的现状 AI智能体(AI Agents)是指能够感知环境、做出决策并执行任务的智能系统。它们通常结合了机器学习、自然语言处理、计算机视觉等技术,能够在复杂环境中自主运行。目前,AI智能体已经在多个领域取得了显著进展。 在工业领域,AI智能体被用于自动化生产线、质量…...
操作系统实验 实验3 存储器分配与回收
1.实验目的 了解动态分区分配方式中使用的数据结构和分配算法,并进一步加深动态分区存储管理方式及其实现过程的理解。 2.实验要求 用C语言实现首次适应算法的动态分区分配过程alloc()和回收过程free()。 一、实验内容: 1.实验内容 用C语言实…...
408考研逐题详解:2009年第13题
2009年第13题 浮点数加、减运算过程一般包括对阶、尾数运算、规格化、舍入和判溢出等步骤。设浮点数的阶码和尾数均采用补码表示,且位数分别为 5 位和 7 位(均含 2 位符号位)。若有两个数 X 2 7 29 / 32 X2^7\times29/32 X2729/32, Y 2 …...
什么是虚拟同步发电机
虚拟同步发电机(Virtual Synchronous Generator, VSG) 是一种基于电力电子技术的先进控制策略,通过模拟传统同步发电机的机电特性和动态行为,使逆变器或储能系统能够像传统发电机一样为电网提供惯性支撑、频率调节和电压稳定性支持…...
性能比拼: Linkerd vs. Istio
本内容是对知名性能评测博主 Anton Putra Linkerd vs. Istio (Rust vs. C) performance benchmark 内容的翻译与整理, 有适当删减, 相关指标和结论以原作为准 在本内容中,我们将对比 Kubernetes 服务网格中的 Istio 和 Linkerd。 相关代码详见 github 我们将运行…...
FPGA: Xilinx Kintex 7实现PCIe接口
在Xilinx Kintex-7系列FPGA上实现PCIe(Peripheral Component Interconnect Express)接口,通常使用Xilinx提供的7 Series Integrated Block for PCIe IP核,结合Vivado设计流程。以下是实现PCIe接口的详细步骤和关键点,适…...
《Effective Python》第2章 字符串和切片操作——Python 字符串格式化的现代选择f-strings
引言 本篇博客基于学习《Effective Python》第三版 Chapter 2: Strings and Slicing 的 Item 11 “Prefer Interpolated F-Strings Over C-style Format Strings and str.format” 的总结与延伸。 字符串格式化是 Python 编程中的常见操作,用于动态生成可读性高的…...
vue 去掉右边table的下拉条与下面的白色边框并补充满
::v-deep table {width: 100% !important; } ::v-deep .el-table::after, .el-table::before {display: none !important; }/* 隐藏滚动条但保留滚动功能 */ ::v-deep .el-table__body-wrapper::-webkit-scrollbar {width: 0 !important;height: 0 !important; }::v-deep .el-t…...
RabbitMq消息阻塞,立即解决方案
如果目前你的 RabbitMQ 消费者 被卡住不再消费消息,且消息已经到达消费者绑定队列,但Spring Cloud Stream 没有继续触发 StreamListener 的方法执行。这类问题一般是因为消费者线程阻塞或消息被 RabbitMQ 拒绝投递。我们可以按照下面的步骤紧急处理&…...
单片机-STM32部分:14、SPI
飞书文档https://x509p6c8to.feishu.cn/wiki/VYYnwOc9Zi6ibFk36lYcPQdRnlf 什么是SPI SPI 是英语Serial Peripheral interface的缩写,顾名思义就是串行外围设备接口。是Motorola(摩托罗拉)首先在其MC68HCXX系列处理器上定义的。 SPI,是一种高速的&…...
Selenium-Java版(操作元素)
选择和操控元素的基本方法 前言 选择元素 选择元素的方法 根据 id属性选择元素 根据class属性选择元素 根据tag名选择元素 通过WebElement对象选择元素 示例 等待界面元素出现 原因 解决 操控元素 点击元素 输入框 获取元素信息 获取元素文本内容 获取…...
20052012世界银行中国企业调查数据-社科数据
2005&2012世界银行中国企业调查数据-社科数据https://download.csdn.net/download/paofuluolijiang/90623828https://download.csdn.net/download/paofuluolijiang/90623828 世界银行中国企业调查数据(World Bank Enterprise Surveys Data)是国际金…...
学习黑客NFC技术详解
NFC技术详解:近距离通信的无线桥梁 📱💳 学习目标:了解NFC技术的基本原理、应用场景及安全注意事项,掌握这一日益普及的近场通信技术 1. NFC的概念与基础 📡 NFC(Near Field Communication&…...
Java问题排查常用命令行工具速查表
Java问题排查常用命令行工具速查表 工具典型用途常用命令示例说明/场景jps列出本机所有Java进程jps -l获取Java进程PID和主类名,配合其它工具使用jcmd动态诊断、堆heap dump、线程dump等jcmd helpjcmd VM.flagsjcmd GC.heap_infojcmd Thread.print功能最全…...
近期搬了个家,停更了几天,明天继续哈~
近期搬了个家,停更了几天,明天继续哈~ 近期搬家比较离谱,第一天下暴雨,冰雹,停电,第二天又停电两小时,截止14号晚上11:30终于完工 了,从西二的20 号楼到西三的19号楼&am…...
C#高级编程:IO和序列化
在 C# 编程中,输入输出(IO)和序列化是两个至关重要的概念,它们为数据的存储、读取以及在不同环境间的传输提供了强大的支持。无论是开发小型应用程序,还是构建复杂的企业级系统,深入理解并熟练运用 IO 和序列化技术都是必不可少的。 一、C# 中的 IO 基础 1、文件流…...
PyQt5完整指南:从入门到实践
引言 PyQt5是Python编程语言的一个GUI(图形用户界面)工具包,它是Qt5应用程序框架的Python绑定。Qt是一个跨平台的C应用程序开发框架,被广泛用于开发GUI程序和非GUI程序。PyQt5让Python开发者能够使用Python语言享受到Qt框架的强大…...
C#高级编程:加密解密
在数字化时代,数据安全是每个应用程序都必须重视的环节。无论是用户的个人信息、敏感的商业数据,还是重要的系统配置,都需要得到妥善的保护。C# 作为一种广泛应用的编程语言,提供了丰富且强大的加密解密功能,帮助开发者构建安全可靠的应用。本文将深入探讨 C# 高级编程中的…...
银行卡真伪验证助力金融合规-银行卡实名认证接口
在数字化时代,金融交易日益频繁,用户身份与银行卡信息的真实性核验成为保障资金安全、防止欺诈行为的关键环节。无论是在线支付、网络借贷、电商平台,还是社交软件、金融服务APP,均需对用户的银行卡进行严格的实名认证。为满足企业…...
html5+css3实现傅里叶变换的动态展示效果(仅供参考)
<!DOCTYPE html> <html lang"zh-CN"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>傅里叶变换的动态展示效果</title><sty…...
SysConfig修改后`ti_msp_dl_config`文件未更新问题的解决方法(已解决)
SysConfig修改后ti_msp_dl_config文件未更新问题的解决方法 在使用SysConfig工具配置TI MSPM0系列MCU时,有时会遇到一个令人困惑的问题:在SysConfig中修改配置后,生成的ti_msp_dl_config.c文件内容却没有更新。这可能会导致工程无法正确编译…...
深入浅出 IPFS 在 DApps 和 NFT 中的应用:以 Pinata 实战为例
目录 IPFS背景什么是 IPFS?IPFS 在 DApps 与 NFT 中的作用什么是 Pinata?为什么使用它?使用原生IPFS上传下载文件(HTML + JavaScript 示例)使用Pinata上传下载文件(HTML + JavaScript 示例)注册并创建APIKey使用 Pinata 上传文件和JSON(HTML + JavaScript 示例)总结IP…...
深度剖析LLM的“大脑”:单层Transformer的思考模式探索
简单说一下哈 —— 咱们打算训练一个单层 Transformer 加上稀疏自编码器的小型百万参数大型语言模型(LLM),然后去调试它的思考过程,看看这个 LLM 的思考和人类思考到底有多像。 LLMs 是怎么思考的呢? 开源 LLM 出现之后…...
(4)python开发经验
文章目录 1 使用ctypes库调用2 使用pybind11 更多精彩内容👉内容导航 👈👉Qt开发 👈👉python开发 👈 1 使用ctypes库调用 说明:ctypes是一个Python内置的库,可以提供C兼容的数据类型…...
卷积神经网络全连接层详解:特征汇总、FCN替代与性能影响分析
【内容摘要】 本文聚焦卷积神经网络(CNN)的全连接层,详细介绍其将二维特征图转化为一维向量的过程,阐述全卷积网络(FCN)如何通过转置卷积替代全连接层以实现像素级分类,并分析全连接层对图像分类…...
通义千问-langchain使用构建(一)
目录 序言通义千问1获取通义千问api_key2Conda构建下本地环境3 构建一下多轮对话 LangChain1使用Langchain调用通义千问接口实现翻译 结论 序言 25年5月,现在基本每个大厂都有涉及大模型(Large Language Model),然后在大模型基础上构建应用框架。 参考…...
六西格玛觉醒:一场数据思维的启蒙运动
当生产线上的不良品率曲线第一次在我眼前具象化为统计波动图时,我意识到自己正站在新旧认知的断层带上。从对着MINITAB界面手足无措的菜鸟,到能独立完成过程能力分析的绿带学员,这段学习旅程不仅重塑了我的问题解决逻辑,更让我…...
BitMart合约交易体验 BitMart滑点全赔的底层逻辑
美国新泽西州泽西市,2025年5月13日 – BitMart,全球领先的数字资产交易平台,推出了其开创性的滑点保护计划,旨在解决加密市场中最具挑战性且常常被忽视的风险之一:滑点。该计划为交易者提供了在 USDT 保证金永续合约交…...
HCIP(BFD)
一、前言 随着网络应用的广泛部署,网络发生故障极大可能导致业务异常。为了减小链路、设备故障对业 务的影响,提高网络的可靠性,网络设备需要尽快检测到与相邻设备间的通信故障,以便及时采取措施,保证业务正常进行。BFD(Bidirectional Forwarding Detection,双向转发检测)提供…...
json-server的用法-基于 RESTful API 的本地 mock 服务
json-server 是一个非常方便的工具,用于快速搭建基于 RESTful API 的本地 mock 服务,特别适合前端开发阶段模拟后端数据接口。 🧩 一、安装 npm install -g json-server🚀 二、快速启动 创建一个 db.json 文件(模拟数…...
化工单元操作试验装置系列产品JG-SX211计算机过程控制板框过滤操作实训装置
化工单元操作试验装置系列产品JG-SX211计算机过程控制板框过滤操作实训装置 一、装置功能 板框过滤岗位技能:板框过滤机的构造和操作方法;板框压滤机的操作(装合、过滤、洗涤、卸渣、整理);洗涤速率与最终过滤速率的关…...
Linux 内核 IPv4 协议栈中的协议注册机制解析
1. 引言 在 Linux 内核的 IPv4 协议栈中,inetsw 是一个核心数据结构,负责管理不同套接字类型(如 SOCK_STREAM、SOCK_DGRAM)的协议实现。本文结合代码分析,深入探讨其设计原理、动态协议注册机制及并发安全实现。 2. inetsw 的结构与作用 2.1 定义与初始化 static struc…...
【PostgreSQL数据分析实战:从数据清洗到可视化全流程】附录-C. 常用SQL脚本模板
👉 点击关注不迷路 👉 点击关注不迷路 👉 点击关注不迷路 文章大纲 附录C. 常用SQL脚本模板速查表一、数据清洗与预处理模板二、数据聚合与分析模板三、窗口函数应用模板四、性能优化与监控模板五、数据备份与恢复模板六、权限管理与安全模板…...
Linux操作系统实战:中断源码的性能分析(转)
Linux中断是指在Linux操作系统中,当硬件设备或软件触发某个事件时,CPU会中断正在执行的任务,并立即处理这个事件。它是实现实时响应和处理外部事件的重要机制,Linux中断可以分为两种类型:硬件中断和软件中断࿰…...
Windows系统Anaconda/Miniconda的安装、配置、基础使用、清理缓存空间和Pycharm/VSCode配置指南
本文同步发布在个人博客: Windows系统Anaconda/Miniconda的安装、配置、基础使用、清理缓存空间和Pycharm/VSCode配置指南 - 萑澈的寒舍Conda 是一个开源的跨平台包管理与环境管理工具,广泛应用于数据科学、机器学习及 Python 开发领域。它不仅能帮助用…...
用HBuilder运行小程序到微信开发者工具
首先在HBuilder里配置微信开发者工具安装路径 “运行”--“运行到小程序模拟器”--“运行设置”--“微信开发者工具路径”...
基于网关实现不同网段S7-1200 CPU的通信方法
在工业自动化场景中,不同网段的S7-1200 PLC之间需要进行数据交换时,通常需要借助网关或路由设备实现跨网段通信。以下是几种常见的实现方法及详细配置步骤。 一、通信需求分析 当两个或多个S7-1200 PLC位于不同子网(如192.168.1.0/24和192.1…...
微信小程序学习之轮播图swiper
轮播图是小程序的重要组件,我们还是好好学滴。 1、上代码,直接布局一个轮播图组件(index.wxml): <swiper class"swiper" indicator-active-color"#fa2c19" indicator-color"#fff" duration"{{durati…...
零基础用 Hexo + Matery 搭建博客|Github Pages 免费部署教程
文章目录 一、Hexo1.1 依赖1.2 快速使用1.3 目录说明1.4 命令说明1.4.1 常规命令1.4.2 全局选项 二、主题安装2.1 安装 Matery 主题2.1.1 下载2.1.2 配置2.1.2.1 基础配置2.1.2.2 新建页面类型2.1.2.3 其他配置 2.2 其他主题推荐 三、部署3.1 部署到 Github Pages 四、总结 一、…...
Large-Scale Language Models: In-Depth Principles and Pioneering Innovations
大规模语言模型(Large-Scale Language Models, LLMs)是人工智能领域的璀璨明珠,深刻重塑了自然语言处理(NLP)并推动多模态应用的蓬勃发展。从BERT的语义洞察到GPT系列的生成奇迹,再到Grok、LLaMA等模型的跨界创新,LLMs在智能对话、代码生成、科学探索等领域展现出近乎人…...
微信小程序智能商城系统(uniapp+Springboot后端+vue管理端)
一、系统介绍 本智能商城系统是基于当今主流技术栈开发的一款多端商城解决方案,主要包括微信小程序前端、SpringBoot 后端服务以及 Vue 管理后台三大部分。系统融合了线上商城的核心功能,支持商品浏览、下单、支付、订单管理等操作,适用于中小…...
命令行快速上传文件到SFTP服务器(附参考示例)
一、SFTP基础命令格式 更新参数后的标准命令格式为: sftp -P [端口号] [用户名][服务器IP]:[远程路径] <<< $put [本地文件路径]二、新参数实例解析 使用新连接参数的完整命令示例: sftp -P 30033 test_jigou_sftp121.199.64.216:/download…...
【Linux】第十六章 分析和存储日志
1. RHEL 日志文件保存在哪个目录中? 一般存储在 /var/log 目录中。 2. 什么是syslog消息和非syslog消息? syslog消息是一种标准的日志记录协议和格式,用于系统和应用程序记录日志信息。它规定了日志消息的结构和内容,包括消息的…...
vue2+ThinkPHP5实现简单大文件切片上传
使用 Vue 2 和 ThinkPHP 5 实现大文件切片上传功能 文章目录 一、前端(Vue 2)安装依赖文件上传并切片全部代码二、后端(ThinkPHP 5)完整代码一、前端(Vue 2) 安装依赖 安装spark-md5依赖 用于生成文件哈希,以便验证文件的完整性。 npm install spark-md5文件上传并切…...
phpstudy的Apache添加AddType application/x-httpd-php .php .php5配置无效的处理方式
前言 最近在学习安全竞赛ctf相关的内容,使用phpstudy作为服务端,研究图片上传相关漏洞的靶场upload-labs。其中遇到后缀名过滤,会过滤后缀名php。按照网上的处理方式,只需要在Apache服务器的配置文件中增加“AddType application…...
2025年Flutter项目管理技能要求
在2025年,随着Flutter技术的广泛应用和项目复杂度的提升,项目管理的重要性愈发凸显。Flutter项目管理不仅需要技术能力,还需要良好的沟通、协调、规划和执行能力。本文将详细探讨2025年Flutter项目管理应具备的技能要求,帮助项目管…...