ISP 论文解读 |三星: Time-Aware AWB (ICCV 2025)
阅读提示
潜在读者
- ISP/图像算法(调试)工程师,研究人员
- 对计算摄影,颜色科学等感兴趣的技术人员
推荐时长
- 5min-30min
原文下载
本期导读
先下一个结论,当前以及未来五年AWB的发展将遵循以下两种技术路径:
1.多光谱/通道 AWB,或者叫面阵多光谱(主要是为了和之前的单点色温传感器做区分),典型代表是HUAWEI的红枫系列和OPPO的分区色温系列(二者本质上是一回事)
即便是当前多通道还存在各种问题,比如信噪比问题导致在一些场景会失效影响稳定性,但是其基于第一性原理的测光方案,能够相当程度上解决纯色,多光源,模组之间的不一致性等核心问题,而且一旦量产上去,这些问题迭代起来也很快!
2.生成式模型革新传统ISP,比如直接对coarse sRGB做增强
比如,长焦下的人像肤色,我觉得就很适合用大模型来做,而不是在ISP前端的AWB侧做色彩还原
3.多模态AWB
就是充分利用camera甚至其他传感器的各种信息。长期依赖工业界其实或多或少走了多模态路线,比如使用色温传感器测色温来辅助AWB和CCM,比如使用曝光来区分indoor/outdoor来辅助AWB,比如使用多帧来做AWB。我说的多模态在此基础上可能更多,比如ISO,time&location信息(判断经纬度,从而直接获取此时此地的天气状况),姿态信息(俯仰角,来判定是否是天空),甚至是未来的深度信息等等
这实在是很本质的方案,因为我们人类感知世界的方式就是多模态的,color constancy这个能力,实际上就包含了人类视觉第一步初级的色适应+高级大脑皮层的物体识别,记忆色等综合感知
现在要讲的论文就是结合了时间——比如拍摄时间,ISO, Shutter Speed, Flash status等exif信息。
camera的EXIF信息,即 Exchangeable Image File Format缩写,大概包含:
- 拍摄时间和日期/曝光参数/焦距和镜头型号/白平衡模式/色温/闪光灯状态/GPS信息/软件版本/还有自己厂家的私有标签,比如湿度温度什么的
其效果看起来很好,如下图所示,每张图的中间部分表示使用了exif中的信息得到的结果:

技术原理
非常直接,既然这些exif的信息有用,那么就加进去,最好能够端到端训练,于是,设计了如下的pipeline:

简单看,就是两个分支:
- H分支,提取hist的一些特征——这种做法在很多论文中出现,被证明比较有效
- c分支,就是表示了时间戳,ISO,SNR等信息的exif信息
把两个分支直接合起来,用的架构就是普通的MLP。
算法结果
接下来,就是大量的数据集测试,因为常用的AWB benchmarks没有这些exif信息,于是作者收集了一个3000+的数据集,包含RAW,exif, sRGB等信息。直接看结果:

乍看似乎还不错!
但是,细看不太行,特别是和C5(tune-CS)对比,几乎没有优势,甚至在最大误差方面还差一些!

为了找补,作者只能从推理时间这里对比一下了,如下图:

总算是能自圆其说了。
评价
Pros
- 是个很好的尝试,首次引入时间戳
- 提出了一个高质量的数据集
- 实验数据充分,代码开源且清晰
- Ablation中有很多值得学习的地方,我们仔细看一下
1. exif中这些参数哪个最重要?
答案是:SNR stats似乎相对更加重要,如下表所示

这里c=i,s,f,n,r都是说只取其ISO, Shutter speed, flash,noise stats 和SNR stats
而且从其中,我们可以断定: ISO, Shutter和flash的结果如此接近,说明这几个特征存在冗余,或者说,他们是相关的——这个事实被这个数据验证。
2. 论文中大篇幅介绍的这个time feature到底有用吗?
很不幸:用处不大^_^,下表显示,没有p这个时间特征,误差仅仅提升了0.2——在AWB任务中可以忽略不计。也就是说,论文那么大篇幅的介绍,大半部分的motivation和创新点,其实微不足道。

但是我把这点列为优势,是因为它的ablation做的很清晰且充分。
3. 有个很大的启发——只使用exif做MLP竟然也能得到好的结果,而且这个结果和单独使用Hist很相似!换言之,两个分支H和c,如果单独训练,能够得到类似的结果!而前者使用的是image的类似log色度初级特征,后者使用的是整体的曝光快门时间戳等特征

进一步思考,我们甚至可以得到这样的结论:
AWB任务,使用初级特征,能够达到的精度上限,大致如此
我们之前说过,color constancy是来自人类视觉,它的机制其实包含两大块,初级视觉皮层的色适应,LMS的操作;以及大脑皮层的高级认知活动,比如物体识别,记忆等。过往很多算法,凡是涉及到初级特征的,效果上限似乎是确定的。
如果想要有所突破,势必要引入高级的特征。但是我们也看到,如果只使用高级特征,似乎也不足。
4. 首次把AWB任务和user-preference结合起来了
它数据集有两个ground truth,一个是物理真实值,一个是使用user-study得到的preference。我们知道,所谓user-preference本质上是color inconsistency,企业一般是在CCM之后,加个全矩阵或者Lut来做些调整,但是这里却是在AWB domain来做,这里面很值得探索一下!

Cons
- 和C5相比,真的没啥提升
- 感觉他的数据集可能存在bias
比如,一般日出和日落都是低色温,但是这里高色温却占了大部分

发散思考
-
目前双分支,都是提取的基础特征,那么,语义特征如果添加上,会如何?
-
**为啥不利用GPS数据或者北斗数据,直接定位,**比如定位到深圳市南山区,结合当时拍摄时间,直接提取天气预报中色温的数据,不更加有效?