Contents

ISP论文解读:三星影调风格的快速调教(WACV 2026)

💡 微信公众号「ColorWorld花花世界」排版更佳,欢迎关注获取更好阅读体验

📖 阅读提示 本文非常适合做 ISP 调试、效果认知相关工作的同学阅读,这是你们未来的工作方向。

前言

在实际 ISP 工程中,影调调教始终是一项高成本、强经验依赖的工作。

一款终端通常包含多颗摄像头,不同的 sensor 与 lens,在同一套 ISP 下往往会表现出明显的影调差异。

而在产品迭代过程中,又常常要求新一代在整体风格上与前一代保持连续性。这使得影调调教不仅关乎单点效果,更直接影响多摄一致性与代际风格继承。

当前主流做法,仍然高度依赖人工调试。

问题在于,影调调教本身并非完全不可建模。

在风格目标明确的前提下,其核心其实是一个"参数搜索与映射"的问题:如何在保证稳定性的同时,快速将不同硬件条件下的输出拉回到统一的风格空间。

本文解读的这项工作,正是围绕这一工程问题展开。

作者并未尝试用学习模型替代完整 ISP,而是在保留传统 ISP 框架的前提下,将影调相关模块结构化、可学习化,从而提升风格调教在多摄与跨代场景下的效率与一致性。

https://mmbiz.qpic.cn/mmbiz_png/xIqFiaW7wITXiaNiaciaPia7vsoHVjlsDamEvnqcmia6FBKSdicAhLEcYK4l3pufrKI2MaEZNWEeAym0IfIU94IUfQPSg/640?wx_fmt=png&from=appmsg

▲ 图 | ISP模块AI化然后联合训练,快速高效得到不同风格图片

本文名为 Modular Neural Image Signal Processing。乍看是一篇 AI-ISP 相关工作,但这并不是重点。

在我看来,它真正想做的,是 风格调教这件事本身——在已有风格目标的情况下,如何 更快、更稳定 地完成调教。

它的基本做法是,把与风格强相关的模块(如 tone mapping、color enhancement 等)网络化,将其视为 latent feature,通过 joint loss 进行端到端学习。

从而,在不同 sensor 条件下,可以更快地把输出风格对齐。

需要说明的是,论文并不是按照我这里的工程叙事来展开的,这是我自己的总结方式。原文行文更偏学术,因为上述问题本身过于工程化。

本文发表在 WACV(时间线上大概率是 2026),团队依然是 Mbrown,作者是我们的老朋友 Afifi。他博士毕业后先后在 Google、Apple 工作,现在回到三星。

https://mmbiz.qpic.cn/mmbiz_png/xIqFiaW7wITXiaNiaciaPia7vsoHVjlsDamEvjRuTD1Uq7fema8zruhhIvKwtgX1Bib5uuGPKPrT1qET4oF0W8J1TT6g/640?wx_fmt=png&from=appmsg


01 方法

前文提到的多摄一致性、代际风格继承以及影调调教效率问题,都可以直接从这套架构的设计中看到对应取向。

https://mmbiz.qpic.cn/mmbiz_png/xIqFiaW7wITXiaNiaciaPia7vsoHVjlsDamEvoGib7WBC6T2JzsY627oDOaQJy4ldXxhEibPHKr07haRmHvgGoiaubO87Q/640?wx_fmt=png&from=appmsg

▲ 图 | Overview

整体流程可以理解为:先完成物理层面的归一化,再对影调风格进行建模。

  1. 输入为 RAW,首先进行降噪处理。AWB 与 CCM 默认已经完成,进入模型的图像位于线性 sRGB 空间。

    通过 AWB + CCM 先统一颜色坐标系,可以显著减小不同 sensor 之间的基础差异,为后续影调对齐提供稳定起点。

  2. 在影调建模之前,引入 digital gain 对整体曝光进行约束。

    该步骤用于避免后续影调模块在不同曝光区间下工作,有助于提升调教过程的稳定性。

  3. 使用 global tone mapping 建模全局亮度关系。

    该模块主要决定整体亮度走势,是影调风格中最直观的组成部分。

  4. 使用 local tone mapping 建模局部对比结构。

    该模块刻画局部层次,与全局影调共同决定画面的空间感与层次感。

  5. 通过 chroma net 进行色彩调教。

    chroma net 预测的是图像相关的 2D Chroma LUT,在 CbCr 空间中操作,仅作用于色度,从而将色彩调教与亮度调教解耦。 论文中也提到可选的 3D LUT,用于更强烈的艺术风格,但并非默认路径。

  6. 通过 gamma 模块对影调进行整体收敛。

    这里的 gamma 并非传统 ISP 中固定的 OETF,而是由网络预测的图像相关参数,更像是对亮度与对比度的残差修正。

  7. 对结果进行上采样,得到完整分辨率输出。

整体来看,这套方法并不是通过一个黑箱网络去拟合最终效果,而是将影调相关因素拆解为多个可独立建模的模块。

这种结构与真实 ISP 中"围绕具体模块进行调教"的工程逻辑是高度一致的。

小结一下

上述整个过程,对应本文的核心特色:影调风格可以被快速且稳定地调教,而这一实现是由下面两点能力决定的:

  1. 泛化好:使用 AWB + CCM 后的 linear sRGB 作为模型输入

    这是"能调得快"的地基。输入空间先被统一,不同 sensor 的差异被前置消化,后面的风格模块才有可能复用同一套思路去对齐。我倾向认为泛化能力里有很大一部分来自这一点;剩下的来自模型本身约束强、结构不复杂,不太容易把数据集细节学死。

  2. 可调试:模块化是为了让问题可定位、可替换

    可拆卸本质就是可 debug。影调被拆成 global / local tone、chroma、gamma 这种"对应明确感知维度"的模块后,效果不对时就能定位是亮度走势、局部对比还是色彩偏向的问题,并且可以只动相关模块,而不是整体重新训练。

02 结果

先看客观结果。

https://mmbiz.qpic.cn/mmbiz_png/xIqFiaW7wITXiaNiaciaPia7vsoHVjlsDamEvegPL8BraWtxWms9q3qtc0qqyicb3I3cKbUazTeqKCr9ypP5YsPPeDsQ/640?wx_fmt=png&from=appmsg

整体指标是可以的,但这里有一点需要说明。对比方法中,很多模型是把 AWB 也一起学习的;而本文默认使用的是元数据或已有 AWB 提供的增益,因此在颜色相关指标上,并不是完全公平的比较。

不过,在网络规模并不大的前提下,PSNR、SSIM 等指标能达到这样的水平,本身已经说明工程实现是扎实的。

再看主观结果,我们主要看他的影调泛化性。

它的模型直接在不适用Iphone数据的情况下,输入Iphone RAW得到的效果,和Adobe的 Project Indigo 以及Iphone直出的对比:

https://mmbiz.qpic.cn/mmbiz_png/xIqFiaW7wITXiaNiaciaPia7vsoHVjlsDamEv5ic1kbxh9GoRZjiab0K8DfhRbCibOshDTlQRj6lIM8ypgN6ApJ3Sxa6Kg/640?wx_fmt=png&from=appmsg

▲ 图 | 直接对Iphone RAW应用本文算法得到的结果

当然必须指出: 它这里的raw是iphone的,awb gains和ccm都是用的iphone raw自带的。


03 评价

Pros

  1. 工程价值很高,很多细节值得反复阅读。

    从 AWB、denoising、tone mapping,到 RAW–JPEG 及其 inverse、exposure correction等等,几乎把 ISP 中所有重要模块都走了一遍,里面有很多被业界证明很有效的方案,比如biliteral slicing等,精度和速度都被验证有效的技术

  2. 影调快速调教这个问题上,本文给出了一个非常清晰、可落地的思路。

  3. supplementary 内容非常多,消融实验做得很细。这一点是 Afifi 一贯的风格。

Cons

我觉得唯一有点"省事"的地方在于——AWB 直接默认是正确的,这可直接把问题简化了许多!

同样,还有对Denosing模块的处理——就直接默认随便一个降噪网络——但是这在极暗环境下显然不成立,虽然作者也表达了这不是本文scope,但是这的确是问题。


04 发散

  1. 未来的调试工程师,可能本质上就是算法工程师。

本文号称可 debug,但大家想想这个咋debug? 比如饱和度有问题,很可能是fix其他模块param,只针对 chroma 模块进行再训练或微调——这不就是算法工程师的日常工作?

所以,每个Tuning工程师,都应该会调网络。类似的,每个效果认知工程师,也应该会调网络——因为这个风格倾向是你们定的啊。

这印证了我之前强调的,AI时代,要提高自己的复杂度:科普 | 请让自己变得复杂

  1. AWB 完全可以被纳入端到端训练。

我相信作者一定尝试过,只是稳定性或泛化性还不够,但方向是清晰的。类似的,极端环境下的Denoiser,都可以plug in试试。

  1. 一项技术能否真正落地,很多时候取决于稳定性边界。

传统 ISP 中会有大量保护机制,比如肤色保护、chroma 限制等,而本文并未涉及,所以在网络设计时候可以考虑这些边界,让系统更加稳定。

  1. 该技术可以进一步封装。

比如让用户选几张自己喜欢的照片,算法通过调整风格相关参数,实现个人偏好的自适应。

很多公司都有所谓的效果认知组或美学组,试图定义自家影像风格。但美真的有统一标准吗?

如果有,且各家都有一流艺术家坐镇,那最终风格理应趋同,收敛到这个美的’ground truth’。

现实并非如此,说明至少目前,美没有标准。

在这种情况下,由厂商定义基础风格,寻求一个审美的最大公约数,同时允许一定程度的个性化,可能是一条更现实的路径。