色彩科学Vol.13 光谱数据的降维与重构

色彩科学的数学原理

前言:RGB 的阴影

在前面的 12 章中,我们几乎都在处理三维数据(RGB, XYZ, Lab)。这是因为人眼只有三种视锥细胞,三维数据足以“欺骗”我们的眼睛。

然而,物理世界是无限维的。一个物体的颜色本质上由其光谱反射率曲线 $R(\lambda)$ 决定。当我们用 RGB 相机拍摄时,大量光谱信息丢失了,这就是同色异谱的根源。

在艺术品修复、纺织品配色和高端计算机图形学(Spectral Rendering)中,我们需要处理完整的光谱数据。但是,如果以 10nm 为间隔采样可见光(400-700nm),每个像素就需要 31 个数据。这数据量太大了。有没有办法压缩它?

光谱数据的统计特性

自然界的光谱并不是随机的噪声。

  • 树叶的反射率曲线总是平滑的,且在红外波段有特征性的“红边”。
  • 肤色的反射率曲线总是呈现出“W”形的血红蛋白吸收带。

这种平滑性和规律性意味着光谱数据存在巨大的冗余。我们可以利用统计学方法对其进行降维。

主成分分析 (PCA)

主成分分析,在信号处理中也称为 Karhunen-Loève 变换 (KLT),是处理光谱数据的核心工具。

线性基底模型

PCA 的核心思想是找到一组正交的基底函数(特征向量,Eigenvectors)$E_i(\lambda)$,使得任意光谱 $S(\lambda)$ 都可以近似表示为这组基底的线性组合:

其中:

  • $\mu(\lambda)$ 是平均光谱。
  • $w_i$ 是权重系数(标量)。
  • $k$ 是保留的主成分个数。

孟塞尔色卡的实验

研究表明,对于孟塞尔色卡(Munsell Color Chips)等自然物体,前 3 到 6 个主成分就可以解释 99% 以上的光谱方差。 这意味着,我们不需要存储 31 个数据,只需要存储 3-6 个权重系数 $w_i$,就可以高精度地重构出原始光谱。

应用:多光谱成像

基于 PCA 理论,我们可以设计多光谱相机。 这种相机不像普通相机那样只有 R, G, B 三个滤光片,而是可能有 6 个或更多特定的窄带滤光片。

通过测量这 6 个通道的响应,我们可以反解出 6 个权重系数 $w_i$,进而重构出物体在 400-700nm 的完整光谱反射率曲线。

这在数字典藏(如故宫名画数字化)中应用广泛:一旦拥有了画作的光谱数据,我们就可以在计算机上模拟它在任何光源(烛光、日光、LED)下的真实样子,且完全避免同色异谱问题。

总结与展望

光谱是颜色的物理本质,而 RGB 只是人眼的生理投影。通过 PCA 等数学工具,我们可以在数据量和精确度之间找到完美的平衡。

至此,我们已经从光子(辐射度量学)讲到了神经(HVS),从代数(格拉斯曼)讲到了几何(色品图),从工业标准(CIELAB)讲到了电影流程(ACES)。

在最后一章《色彩科学Vol.14 计算色彩学前沿》中,我们将对整个系列进行总结,并展望色彩科学在 AI 和神经科学时代的未来。

Reference

  1. Maloney, L. T. (1986). Evaluation of linear models of surface spectral reflectance with small numbers of parameters. JOSA A.
  2. Parkkinen, J. P. S., et al. (1989). Characteristic spectra of Munsell colors. JOSA A.
  3. Hardeberg, J. Y. Acquisition and Reproduction of Color Images: Colorimetric and Multispectral Approaches.