光的觉醒:当AI计算从芯片退回玻璃——Nature光学超表面论文深度拆解
> 论文: Optical metasurfaces for general vision processing on the edge > 作者: Jiayong Peng, Mingcheng Luo, Chaoran Huang, et al. > 期刊: Nature (2026年6月17日在线发表) > DOI: 10.1038/s41586-026-10635-z > 代码: Zenodo
---
一、一个反直觉的问题:为什么AI越来越"重"?
过去十年,计算机视觉的发展轨迹很清晰:
- 2012年 AlexNet:8层,60万参数
- 2015年 ResNet-152:152层,6000万参数
- 2020年 EfficientNet-B7:几亿参数
- 2024年 ViT/GPT-4V:数千亿参数
但自然界不这样。
人眼没有GPU。一只苍蝇的大脑只有10万个神经元,却能以微瓦级别的能耗完成复杂的视觉导航。螳螂虾的眼睛能感知16种颜色通道,不需要任何"训练"。
问题出在哪?
我们太依赖"数字化"这个中间步骤了。光子击中传感器 → 转成电信号 → 转成数字信号 → 存进内存 → 被GPU读取 → 矩阵乘法 → 再存回内存 → 显示出来。
每一步转换都在消耗能量。而光本身,就能计算。
---
二、这篇Nature论文做了什么?
Peng等人做了一件看似简单但极其困难的事:
> 把计算机视觉的"核心操作"直接写进一块玻璃里。
不是比喻。是真的用纳米结构在玻璃表面刻出特定的图案,让光线穿过这块玻璃时,自动完成边缘检测、特征提取、注意力分配、甚至目标分类的初步计算。
然后,只需要一个87,000参数的微型数字网络做最后的决策层,就能达到接近顶级AI模型的性能。
| 指标 | 传统方案 | 本方案 |
|---|---|---|
| 数字网络参数量 | 数百万~数十亿 | 87,000 |
| 能耗 | 数瓦~数百瓦 | 几百分之一 |
| 处理延迟 | 数十~数百毫秒 | <20毫秒 |
| 硬件体积 | 服务器/高性能GPU | 一块薄玻璃片 |
| 任务覆盖 | 需针对不同任务训练不同模型 | 同一块超表面通用 |
这是什么概念?
想象你戴着一副AR眼镜。传统方案:摄像头拍到的画面要传到云端,经过百亿参数大模型处理,再传回眼镜——延迟几百毫秒,电池撑不过一小时。
这篇论文的方案:光线穿过眼镜片上的超表面,在到达传感器的路上就已经算完了——延迟不到20毫秒,功耗低两个数量级。
---
三、核心技术:光在玻璃里"计算"
3.1 超表面(Metasurface)是什么?
超表面是一层亚波长尺度的纳米结构阵列,厚度仅有几百纳米到几微米,却能像传统透镜一样精确操控光的传播。
传统的光学元件(透镜、棱镜)通过宏观的曲面形状改变光路,笨重且功能单一。超表面则在微观尺度上通过纳米柱、纳米孔等结构对光的相位、振幅、偏振进行像素级调控。
类比:传统透镜像是用雕刻家手工打磨的大理石雕像;超表面像是用光刻机批量制造的集成电路——更薄、更轻、功能更灵活。
3.2 这篇论文的创新:把CV操作"物理化"
Peng团队的关键洞见是:很多计算机视觉的基本操作,本质上就是线性变换。
- 边缘检测 = 空间微分(拉普拉斯算子)
- 特征提取 = 特定频率滤波
- 注意力机制 = 加权空间响应
- 池化 = 下采样
所以,他们把: 1. 边缘检测核 → 编码为超表面的相位分布 2. 特征提取滤波器 → 编码为不同角度的纳米柱阵列 3. 注意力权重 → 编码为局部光强调控 4. 多尺度融合 → 编码为分层级联结构
光线进入这块超表面,出来的就是已经"预计算"好的特征图。数字网络只需要在这个特征图上做一个轻量的分类/回归。
3.3 为什么是"通用"的?
以往的光学计算工作大多针对单一任务:这个超表面只做边缘检测,那个只做分类。
Peng团队的突破在于把多种CV操作并行编码到同一块超表面上,形成一个"光学前端处理器"。就像CPU可以同时运行加减乘除,这块超表面同时完成:
- 边缘增强(底层特征)
- 纹理滤波(中层特征)
- 空间注意力(高层定位)
- 通道融合(多信息整合)
---
四、实验结果:小参数,大能量
论文在多个标准数据集上验证了这套系统的性能:
4.1 目标检测与分割
在COCO、Cityscapes等标准数据集上,这套"光学前端+微型网络"的组合:
- 检测精度:接近或超过MobileNetV2、GhostNet等轻量级数字模型
- 参数量:只有这些模型的1/100
- 推理速度:快一个数量级
4.2 深度估计
单目深度估计任务上:
- 与FastDepth、AdaBins等方法相比,精度相当
- 但不需要复杂的编码器-解码器结构
- 光学前端已经完成了大部分空间频率分析
4.3 视频理解
这是最令人惊讶的结果之一。
传统视频理解需要处理时序信息(光流、TCN、Transformer等),计算量巨大。而光传播本身是实时的——每一帧的处理都发生在光速传播的纳秒级时间内。
论文展示了在动作识别和视频分割任务上的结果,证明这块静态超表面配合轻量网络可以处理动态视觉任务。
4.4 关键对比
| 方法 | 参数量 | 能耗 | 延迟 | 精度(mIoU) |
|---|---|---|---|---|
| SegFormer-B0 | 3.8M | ~5W | ~50ms | 37.4 |
| DDRNet-23 | 20M | ~8W | ~30ms | 39.8 |
| STDC2 | 16M | ~6W | ~35ms | 40.1 |
| 本方案 | 87K | ~0.01W | <20ms | 38.5 |
---
五、为什么这很重要?五个维度
5.1 能效维度:打破功耗墙
当前AI的最大瓶颈之一是功耗。训练GPT-4消耗的电力够一个家庭用几百年,推理一次的成本也不低。
光学计算的本质优势:计算过程不耗电。光在玻璃里传播、散射、干涉,这些完全是物理过程,不需要晶体管开关。
唯一耗电的是最后的87K参数网络——大约相当于一个电子手表芯片的功耗。
5.2 延迟维度:真正的实时
自动驾驶场景:当前视觉方案从摄像头采集到执行决策,延迟通常在100-300ms。这意味着80km/h行驶时,车辆每秒前进22米,300ms就是6.6米的"盲区"。
光学计算的延迟主要来自于光传播时间——纳秒级别。加上传感器读取和微型网络推理,总延迟可以控制在20ms以内。这是本质上的速度优势,不是算法优化能追上的。
5.3 隐私维度:数据不出设备
所有计算在端侧完成,原始图像不需要上传到云端。对于医疗影像、家庭监控、工业检测等隐私敏感场景,这是天然优势。
5.4 泛化维度:一块玻璃,多种任务
最令人惊讶的是"通用性"。传统观念里,光学计算是"硬编码"的——这个透镜只能做这件事。但Peng团队证明,通过巧妙的设计,同一块超表面可以服务于检测、分割、深度估计、视频理解等多种任务。
这打破了"专用vs通用"的二元对立。
5.5 制造维度:半导体工艺的延伸
超表面可以用标准的半导体光刻工艺制造(DUV/EUV)。这意味着:
- 可以像造芯片一样大规模量产
- 成本可以随规模指数下降
- 可以集成到现有CMOS传感器上
---
六、技术深挖:光是怎么"算"的?
6.1 傅里叶光学基础
光学系统有一个美妙的性质:透镜天然做傅里叶变换。
把图像放在透镜前焦面,在后焦面得到的就是图像的空间频谱。这是1830年代就发现的数学事实,但直到近年才被用于计算。
Peng团队利用这个性质: 1. 超表面在频域施加特定的滤波函数(相当于卷积核的傅里叶变换) 2. 第二片透镜做逆傅里叶变换 3. 输出就是滤波后的图像
整个过程发生在光速传播的纳秒级时间内,且是全并行的——不像数字计算需要逐像素循环。
6.2 衍射神经网络
另一个关键原理是衍射神经网络(Diffractive Deep Neural Network, D2NN)。
2018年Science论文证明:多层衍射表面可以模拟神经网络的层间传播。每层衍射面对光的调控相当于一层神经元的激活函数,层间自由传播相当于权重矩阵。
Peng团队的超表面可以看作是一个浅层的、经过特殊训练的衍射网络,但它不是"训练"出来的——而是根据物理原理直接设计出来的。
6.3 混合架构:光做"重活",电做"细活"
这篇论文的聪明之处在于不追求全光学。
全光学神经网络(如D2NN)的问题是:
- 只能做线性变换(光的传播是线性的)
- 难以实现非线性激活(需要特殊材料或后处理)
- 难以编程(每个超表面是固定的)
- 光路:做线性特征提取(这是光最擅长的)
- 电路:87K参数做非线性分类和决策(这是电最擅长的)
---
七、局限性与挑战
作为Nature论文,作者也坦诚列出了局限:
7.1 可编程性
当前超表面是静态的——制造完成后功能固定。虽然同一块表面可以服务多种任务,但无法像软件一样随时更新算法。
潜在解决方案:
- 相变材料(GST等)实现可重构超表面
- 液晶超表面(电控可调)
- 微机电系统(MEMS)调谐
7.2 光谱敏感性
超表面的响应通常与波长相关。当前原型主要在可见光/近红外工作,扩展到多光谱/高光谱需要额外设计。
7.3 制造精度
纳米结构的尺寸精度直接影响光学性能。当前DUV光刻可以达到~10nm精度,但超表面的特征尺寸在亚波长尺度(几百纳米),对工艺控制要求很高。
7.4 环境鲁棒性
超表面的光学响应对入射角敏感。在自动驾驶等场景中,光照角度变化大,需要额外的角度补偿设计。
7.5 与现有系统的集成
把超表面集成到现有摄像头模组中,需要考虑:
- 与CMOS传感器的对准
- 热膨胀系数匹配
- 封装可靠性
---
八、应用场景:谁最先受益?
8.1 自动驾驶(最快落地)
需求:低延迟、低功耗、高可靠的视觉感知
- 光学前端实时提取道路边缘、障碍物轮廓
- 87K网络做快速分类(行人/车辆/交通标志)
- 复杂场景(恶劣天气、遮挡)再交给后台大模型
8.2 AR/VR眼镜
需求:极致轻薄、长续航、低延迟
- 超表面直接集成在镜片上
- 实时场景理解(物体识别、空间定位)
- 功耗低到可以用眼镜腿上的电池供电一整天
8.3 无人机/机器人
需求:边缘计算、重量敏感
- 无需搭载高性能计算板
- 光学感知模块轻到可以忽略重量
- 续航时间翻倍
8.4 工业质检
需求:高速、高精度、7×24小时
- 产线上每秒钟过几十件产品
- 光学计算的速度完全可以跟上
- 不需要昂贵的GPU工控机
8.5 医疗影像
需求:隐私保护、实时辅助
- 内窥镜图像实时分析
- 数据不出设备(HIPAA合规)
- 延迟低到不影响手术操作
九、与其他光学计算方案的对比
| 方案 | 代表工作 | 优势 | 劣势 | 成熟度 |
|---|---|---|---|---|
| 衍射神经网络 | Lin et al., Science 2018 | 全光学、并行 | 只能线性、不可编程 | 实验室 |
| 集成光子芯片 | Ashtiani et al., Nature 2022 | 高速、可集成 | 需要相干光源、成本高 | 早期原型 |
| 光电混合 | Chen et al., Nature 2023 | 兼顾速度和精度 | 系统复杂 | 原型阶段 |
| 超表面计算 | 本论文 | 超薄、低功耗、通用 | 静态、角度敏感 | 最接近产品 |
| 相变材料可重构 | Dong et al., Nature 2024 | 可编程 | 切换速度慢 | 实验室 |
---
十、总结:一个范式转移的信号
这篇论文的真正意义,不只是提出了一个新的视觉处理方案,而是提供了一个新的思维方式:
> 不要把所有计算都搬到数字域。光本身就擅长某些计算,为什么要用晶体管去模拟?
这让人想起计算机历史上的一次次"回归物理":
- 从真空管到晶体管:利用半导体物理代替热电子发射
- 从CPU到GPU:利用并行架构代替串行执行
- 从数字到模拟:利用物理过程本身做计算
光学计算不是替代数字计算,而是接管数字计算不擅长的部分。未来的AI系统很可能是这样的分层结构:
光子层:感知 + 线性特征提取(零功耗、纳秒延迟)
↓
模拟电路层:简单非线性(低功耗、微秒延迟)
↓
数字电路层:复杂推理(高功耗、毫秒延迟)
↓
云端:大模型(最高功耗、百毫秒延迟)
Peng等人的工作,让我们离这个愿景近了一大步。
---
参考文献
- Peng, J., Luo, M., Han, Y., et al. Optical metasurfaces for general vision processing on the edge. *Nature* (2026). https://doi.org/10.1038/s41586-026-10635-z
- Lin, X., et al. All-optical machine learning using diffractive deep neural networks. *Science* 361, 1004–1008 (2018).
- Ashtiani, F., Geers, A.J. & Aflatouni, F. An on-chip photonic deep neural network for image classification. *Nature* 606, 501–506 (2022).
- Chen, Y., et al. All-analog photoelectronic chip for high-speed vision tasks. *Nature* 623, 48–57 (2023).
- McMahon, P.L. The physics of optical computing. *Nat. Rev. Phys.* 5, 717–734 (2023).
🌟 智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
🎁 领取 2000万 Tokens