Contents

ISP 论文解读 | 三星: Beyond RGB: A Real World Dataset for Multispectral Imaging in Mobile Devices (WACV 2024)

就应用而言,理解算法的边界,往往比理解算法本身更重要

📖 阅读提示

潜在读者

  • 图像/ISP算法(调试)工程师,研究人员
  • 对计算摄影、颜色科学感兴趣的科研和技术人员

推荐时长

  • 1min–30min

原文下载


这是多光谱AWB系列文章的第二篇,第一篇可以参考“多光谱色彩复制技术”

快速导读

面阵多光谱,是和单点多光谱传感器的对应说法,他们一般是有一些分辨率,比如150w的红枫,大概有9通道数据。类似的技术OPPO在其丹霞原彩系列中也已使用。工业界如火如荼,但是学术界发展很缓慢,其中一个核心原因是:缺乏真实的数据集

https://img.shuweiyue.com/img/1755686543559-bddb7f42-f25c-4dca-91a0-e392a11e6650.png

目前开源的大部分都是纯粹做多光谱研究的——这个方向和我们说的面阵多光谱不完全一样,他们的一个重要假设是:多光谱是用来真实成像的,而不是辅助测光的,而面阵多光谱,在手机成像成像领域,是辅助测光,不参与成像——我认为这是两个领域的核心区别。

非常幸运的,现在说的这篇论文,提出了一个很有价值的数据集,它太过重要,以至于都可以直接拿来当标题:

https://img.shuweiyue.com/img/1755678642713-6281de84-8e6b-40af-bd20-df2b8eb05d1a.png?style=centercrop

这是该数据集的简介:

  • 16 通道多光谱数据 ,分辨率648x484,使用分光光度计测量得到的36维,380-730nm的真实光谱作为ground truth
  • 总共 1680 场景(自然光472,人造光1208)
  • 为了验证和手机成像结合光谱信息有没有提升,还在上述场景中,分别使用Samsung和OPPO手机采集了带色卡的RAW-RGB数据

那么,如何使用这些数据集,如何证明多光谱能够比单独的RGB估计的更加精准,我们看看他的具体算法。

  • 基线把 CCC 平移到 ISE:把 16 通道拆成多组三通道跑 CCC,再用 CNN 回归整条光源光谱。
  • 三层评测:光谱域(ΔAHS)、MS 传感器域(ΔAMS)、XYZ 感知域(ΔAXYZ)。
  • 结论一句话:MS 明显优于 RGB-only,MS+RGB 融合小幅更稳。
  • 注意:单点光谱 GT、全局光源假设,对空间多光源不直接友好。

01 方法

https://img.shuweiyue.com/img/1755680161016-ef8f4587-3a42-490e-904b-9273dff423bd.png{=.center}

通俗说:16 通道挑 21 组三通道(14 组相邻 + 7 组低重叠),每组当“伪 RGB”,每组跑一次 CCC(做 log-chroma 直方图 → 金字塔卷积 → 得到该组的 score map),然后把 21 个 score maps 拼接进 CNN,直接回归 36 维光源光谱。

总损失: $$L ;=; w_1 \sum_{i=1}^{M} L^{(i)}{CCC} ;+; w_2, L{CNN} ;+; w_3, L_{wd}$$

至于如何融合(Fusion)RGB,就更加直接了:把手机 RGB 当成“第 22 组三通道”并入上述流程。

稍微有点复杂的是为了更加公平的在不同维度评测对比,设计了以下评测matrics:

  • 光谱域:$\Delta A_{HS}=AE(S’,S)$

  • MS 域:$\Delta A_{MS}$ (为16通道传感器响应投影)

  • XYZ 域:$\Delta A_{XYZ}$(CIE1931 CMF)


02 结果

我们不是很关心和其他做光谱重构的算法比对,更加关注XYZ效果以及与RGB融合的效果。所以这里我选取了部分结果:

https://img.shuweiyue.com/img/1755680751289-090c2c78-9a72-4e0e-840e-0300af7a1a7e.png

结论是: MS 在 Lab 与 Field 都显著优于 RGB-only;

但是:

  • 融合(MS+RGB)较 MS-only几乎没有提升
  • 是这里融合的方式太过于简单粗暴;
  • 16维度的多光谱数据对RGB的三通道肯定是能够线性表示
  • Field 误差普遍大于 Lab
  • Lab数据中光谱几乎都是测量的非常精准的,但是Field环境中也许有混合光源。
  • Field数据量太少(Field VS. Lab, 472:1208),过拟合了

03 评价

Pros

  • 首个移动影像多光谱数据,+RGB + 光谱仪 + 色卡 + 内外参,链路完整,评测闭环;
  • 16→3 的多组拆分让老牌 3 通道方法(如 CCC)能直接复用在多光谱domain;

Cons

  • 数据集本身依然假设是单光源,多光源用不了——这可是面阵多光谱的一个主要优势啊
  • 算法有点‘笨笨的,手动分了21个组的3通道,这个超参数也没ablation一下;
  • 融合方式朴素(把 RGB 当一组三通道);可做特征级/注意力级对齐与跨相机域对齐;

04 发散

  • 优化算法——这21 组的构造三通道,本质不就是‘手动版多头’吗?把 RGB 与 多光谱当不同模态 token,做 cross-attention,效果一定不会差吧;

  • 肤色研究——论文强调,为了隐私,他们特意把人脸给滤波过滤了——但是多光谱下的肤色,多么重要的topic,给浪费了

  • 改成多光源环境——传统RGB数据集,我们一般都是用relighting的方法然后线性构造多光源环境,这个多光谱是否也能这样做?

  • 移动端影像中,最后成像还是看RGB摄像头,那么,最重要的不应该是:光源光谱知道了,结合RGB sensor的光谱灵敏度曲线不就直接积分得到了RAW white point了吗?再和RGB数据的gt做角度差,只有这样才能够衡量收益