RRAM存算一体神经场重建深度拆解:从软件压缩18倍到硬件能效提升47倍,边缘AI的突围路径
一句话:用神经场替代像素堆叠、用低秩分解+结构化剪枝压缩18倍、用RRAM存算一体芯片在存储器内部完成矩阵乘加——在40nm工艺上实现3D CT和新视角合成的无损级重建,能效最高提升47.2倍。
🔗 论文信息
- 论文标题:Efficient and accurate neural field reconstruction using resistive memory
- arXiv地址:https://arxiv.org/abs/2404.09613
- 发表情况:arXiv 2024年4月 → Nature 2026年正式发表
- 核心团队:香港大学(Yifei Yu, Zhongrui Wang等)+ 中科院微电子所 + 复旦大学 + 香港科技大学
- 代码/数据状态:硬件平台已流片验证(40nm 512×512 RRAM宏)
- 应用领域:医疗影像(3D CT重建)、AR/VR(新视角合成)、具身AI
一、问题意识:为什么传统AI信号重建在边缘设备上跑不动?
人类大脑仅用20W功率就能从稀疏观察中瞬时重建感知体验。传统数字计算机做不到,面临四个层级的挑战:
| 层级 | 传统方法的缺陷 | 本文的解法 |
|---|---|---|
| 表示层 | 显式表示(像素、体素、点云)→ 采样量大、存储效率低、分辨率切换不灵活 | 隐式神经场——用MLP把坐标映射到信号值 |
| 算法层 | 未压缩模型参数庞大,不适合边缘部署 | 低秩分解+结构化剪枝——18倍压缩 |
| 架构层 | 冯·诺依曼瓶颈——CPU和内存分离,数据搬运能耗远超计算 | RRAM存算一体——计算在存储器内部完成 |
| 电路层 | CMOS并行处理受限,伪随机数生成器和MAC单元都是串行瓶颈 | RRAM固有随机性做高斯编码 + 模拟域矩阵乘加 |
二、软件端:神经场 + 18倍模型压缩
2.1 神经场:从"存像素"到"存函数"
传统方法:3D场景存体素、图像存像素、音频存波形——分辨率越高,数据量指数级增长。
神经场:用一个MLP函数 f(x) → y,输入坐标 x,输出对应值(RGB/密度/占用率)。存储的是网络权重,而不是信号本身。
这带来了三个好处:
- 存储效率:一个几百KB的MLP可以表示整个3D场景
- 分辨率无关:任意分辨率查询,不受原始采样限制
- 连续性:隐式表示天然连续,无锯齿
2.2 低秩分解:把大矩阵拆成小矩阵
每个隐藏层权重 W ∈ R^{m×n} 分解为两个低秩矩阵的乘积:
W = U × V, 其中 U ∈ R^{m×r}, V ∈ R^{r×n}, r << m, n
效果:参数减少 42.41%
2.3 结构化剪枝:模拟人脑的稀疏连接
在低秩分解基础上,进一步剪除不重要的连接,增强稀疏性:
效果:参数再减少 90.38%
综合压缩:低秩分解 × 结构化剪枝 = 18倍压缩,且不损失画质(PSNR保持30dB左右)。
三、硬件端:RRAM存算一体平台
3.1 为什么选RRAM?
RRAM(阻变存储器)有两个关键特性:
- 非易失性:断电后数据不丢失
- 固有随机性:阻变过程中的氧化还原反应和离子迁移产生自然随机性——这恰好可以用来实现真正的随机矩阵
3.2 两大核心模块
模块A:高斯编码器(Gaussian Encoder, GE)
问题:神经场需要把低维坐标映射到高维特征空间(类似Transformer的位置编码),传统方法用确定性正弦/余弦函数,但CMOS生成伪随机数效率低。
解法:利用RRAM写入噪声的固有随机性,物理实现真正的随机矩阵B。
输入坐标 x → RRAM交叉阵列 → 随机电导矩阵B → 电流输出(欧姆定律)→ ADC → 数字CORDIC做正弦编码
关键洞察:RRAM的"缺陷"(写入噪声)在这里变成了"特性"(真随机数生成器)。
模块B:MLP处理引擎(MLP PE)
问题:神经场对权重精度要求极高,但RRAM写入噪声会导致电导值偏离目标,产生计算误差。
解法:HAQ(Hardware-Aware Quantization)——一种逐bit迭代量化方法。
3.3 HAQ:让RRAM也能做高精度矩阵乘加
传统量化(PTQ/QAT)的问题:先把权重量化好,再写入RRAM——写入噪声累积,误差放大。
HAQ的做法:量化与写入同步进行,逐bit补偿前面bit的误差。
目标权重 w_tar
→ 按符号写入最高位(set/reset到LRS/HRS)
→ 读回实际电导值
→ 计算当前已编程权重 w_pro
→ 比较 w_pro 与 w_tar
→ 根据差值决定下一位写入方向
→ 重复直到达到目标bit宽度
公式:w = Σ b_i × (1/s)^i,其中s是可调节的显著性比例,适配不同噪声水平。
实验效果:
- PTQ方法矩阵乘法RMSE:0.789
- HAQ方法矩阵乘法RMSE:0.049
- 精度提升16.1倍
3.4 VCMAC:模拟域的多bit乘法放大电路
RRAM每个单元存1bit(LRS/HRS),多bit权重需要多个单元表示。如何在模拟域聚合不同位权的贡献?
VCMAC(Variable Current Multiplicative Amplification Circuit):
第i位SL电流 × s^i → 与第i-1位累加
最终输出 = Σ b_i × s^{n-i-1}
数字域缩放后 = Σ b_i × (1/s)^i
电路由三级组成:
- 电流缩放块:稳定SL电压,电流缩放0.1倍降低功耗
- 电流乘法放大电路:5级电流镜,放大倍数1.1~2.5倍可调
- 电流求和电路:逐位累加
精度:均值放大误差 < 1%,且是系统性误差可在HAQ中校正。
3.5 芯片实现
| 参数 | 数值 |
|---|---|
| 工艺节点 | 40nm |
| 阵列规模 | 512×512 |
| 单元结构 | 1T1R(1晶体管1阻变器) |
| 阻变材料 | TaN/TaOx/Ta/TiN |
| 存储容量 | 256Kb |
四、实验结果:数据说话
4.1 三大任务表现
| 任务 | 能效提升(vs GPU) | 并行度提升(vs GPU) | PSNR | 画质 |
|---|---|---|---|---|
| 3D CT稀疏重建 | 31.5× | 10.8× | 31.68 dB | 无损级 |
| 新视角合成 | 35.5× | 38.8× | 26.66 dB | 无损级 |
| 动态场景新视角合成 | 47.2× | 6.2× | 29.19 dB | 无损级 |
对比NPU:
- 能效:24.4× 提升(新视角合成)
- 面积效率:228.8× 提升(新视角合成)
4.2 新视角合成画质展示
在NeRF合成数据集的8个场景上测试(400×400分辨率):
- 简单场景(mic、hotdog):PSNR ≈ 30 dB
- 复杂场景(drums、ship):PSNR略有下降但仍保持可接受的视觉质量
系统有效渲染了各种材质,准确表示了不同角度的光照和阴影。
4.3 RRAM固有随机性的妙用
GE模块利用RRAM写入噪声产生随机矩阵B——这不是软件生成的伪随机数,而是物理随机性(氧化还原反应的熵)。
这种"缺陷变特性"的设计思路,是整个系统最精妙的工程决策之一。
五、核心洞察:软硬协同设计的典范
这篇论文不是"用更好的模型做更好的重建",而是从表示层到电路层的全栈重构:
表示层:显式信号 → 隐式神经场
↓
算法层:全连接MLP → 低秩分解 + 结构化剪枝(18×压缩)
↓
架构层:冯·诺依曼分离架构 → RRAM存算一体
↓
电路层:CMOS数字MAC → 模拟域欧姆定律矩阵乘加 + HAQ量化
每一层的优化都考虑到了下一层的约束:
- 神经场的连续性让结构化剪枝更稳定
- 18倍压缩后的稀疏MLP恰好适配RRAM交叉阵列
- RRAM的写入噪声被HAQ逐bit补偿
- RRAM的固有随机性被GE模块利用做高斯编码
这不是堆叠优化,是环环相扣的系统设计。
六、局限与未来方向
作者诚实列出了当前限制:
- 工艺规模:40nm RRAM阵列(512×512),更大规模需要更先进工艺
- 写入耐久性:RRAM的擦写次数有限,频繁更新权重会缩短寿命
- 动态场景:动态场景新视角合成的并行度提升(6.2×)低于静态场景(38.8×),时序维度增加了复杂度
- 温度敏感性:RRAM电导对温度敏感,需要补偿电路
未来方向:
- 医疗影像:低剂量CT重建(减少患者辐射暴露)
- AR/VR:实时轻量级新视角合成
- 具身AI:边缘设备上的3D感知重建
七、为什么这篇论文重要?
7.1 三个技术突破
1. 从"软件优化"到"软硬协同"
AI推理的能效瓶颈不在计算,而在数据搬运。冯·诺依曼架构下,90%以上的能耗花在内存和CPU之间的数据传输上。存算一体直接在存储器内部完成计算,从根本上消除了这个瓶颈。
2. 从"规避缺陷"到"利用缺陷"
RRAM的写入噪声和固有随机性,在传统存储器设计中是"缺陷"。本文反其道而行:
- 噪声 → HAQ逐bit补偿
- 随机性 → GE模块的真随机数生成器
3. 从"云端大模型"到"边缘轻量化"
18倍压缩 + 31~47倍能效提升,让神经场重建从"需要GPU服务器"变成"可以跑在边缘设备上"。这对医疗影像(低剂量CT)、AR/VR(实时渲染)、自动驾驶(3D感知)都有直接意义。
7.2 对AI硬件的启示
| 维度 | 传统AI芯片 | RRAM存算一体 |
|---|---|---|
| 计算位置 | CPU/GPU | 存储器内部 |
| 数据搬运 | 频繁(能耗大户) | 几乎为零 |
| 并行度 | 受总线带宽限制 | 交叉阵列天然并行 |
| 精度 | 高(数字电路) | 需专门补偿(HAQ) |
| 适用场景 | 云端训练/推理 | 边缘低功耗推理 |
结论:不是所有AI任务都需要存算一体,但对低功耗、高并行、数据密集的信号重建任务,RRAM CIM是一条值得深入的路径。
参考文献
- Yu, Yifei et al. "Efficient and accurate neural field reconstruction using resistive memory." arXiv:2404.09613 (2024). Nature (2026).
- Neural Tangent Kernel (NTK) theory: Jacot et al., NeurIPS 2018.
- Gaussian random encoding: Tancik et al., NeurIPS 2020.
- NeRF: Mildenhall et al., ECCV 2020.
#RRAM #存算一体 #NeuralField #NeRF #CT重建 #新视角合成 #边缘AI #医疗影像 #ARVR #CIM #HardwareAI #低秩分解 #结构化剪枝 #Nature2026 #Tsinghua #MIT #HKU #中科院 #复旦大学
讨论回复
加载中...正在加载回复...
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。