ISP 论文解读 | 三星: Beyond RGB: A Real World Dataset for Multispectral Imaging in Mobile Devices (WACV 2024)

岳书威 included in Work

2025-08-20 171 words One minute

Contents

就应用而言，理解算法的边界，往往比理解算法本身更重要。

📖 阅读提示

潜在读者

推荐时长

原文下载

这是多光谱AWB系列文章的第二篇，第一篇可以参考“多光谱色彩复制技术”

面阵多光谱，是和单点多光谱传感器的对应说法，他们一般是有一些分辨率，比如150w的红枫，大概有9通道数据。类似的技术OPPO在其丹霞原彩系列中也已使用。工业界如火如荼，但是学术界发展很缓慢，其中一个核心原因是：缺乏真实的数据集

目前开源的大部分都是纯粹做多光谱研究的——这个方向和我们说的面阵多光谱不完全一样，他们的一个重要假设是：多光谱是用来真实成像的，而不是辅助测光的，而面阵多光谱，在手机成像成像领域，是辅助测光，不参与成像——我认为这是两个领域的核心区别。

非常幸运的，现在说的这篇论文，提出了一个很有价值的数据集，它太过重要，以至于都可以直接拿来当标题：

这是该数据集的简介：

那么，如何使用这些数据集，如何证明多光谱能够比单独的RGB估计的更加精准，我们看看他的具体算法。

{=.center}

通俗说：16 通道挑 21 组三通道（14 组相邻 + 7 组低重叠），每组当“伪 RGB”，每组跑一次 CCC（做 log-chroma 直方图 → 金字塔卷积 → 得到该组的 score map），然后把 21 个 score maps 拼接进 CNN，直接回归 36 维光源光谱。

总损失： $$L ;=; w_1 \sum_{i=1}^{M} L^{(i)}{CCC} ;+; w_2, L{CNN} ;+; w_3, L_{wd}$$

至于如何融合（Fusion）RGB，就更加直接了：把手机 RGB 当成“第 22 组三通道”并入上述流程。

稍微有点复杂的是为了更加公平的在不同维度评测对比，设计了以下评测matrics：

我们不是很关心和其他做光谱重构的算法比对，更加关注XYZ效果以及与RGB融合的效果。所以这里我选取了部分结果：

结论是： MS 在 Lab 与 Field 都显著优于 RGB-only；

但是：

是这里融合的方式太过于简单粗暴；

16维度的多光谱数据对RGB的三通道肯定是能够线性表示

Lab数据中光谱几乎都是测量的非常精准的，但是Field环境中也许有混合光源。

Field数据量太少（Field VS. Lab, 472:1208），过拟合了

优化算法——这21 组的构造三通道，本质不就是‘手动版多头’吗？把 RGB 与多光谱当不同模态 token，做 cross-attention，效果一定不会差吧；
肤色研究——论文强调，为了隐私，他们特意把人脸给滤波过滤了——但是多光谱下的肤色，多么重要的topic，给浪费了
改成多光源环境——传统RGB数据集，我们一般都是用relighting的方法然后线性构造多光源环境，这个多光谱是否也能这样做？
移动端影像中，最后成像还是看RGB摄像头，那么，最重要的不应该是：光源光谱知道了，结合RGB sensor的光谱灵敏度曲线不就直接积分得到了RAW white point了吗？再和RGB数据的gt做角度差，只有这样才能够衡量收益