Loading...
正在加载...
请稍候

RRAM存算一体神经场重建深度拆解:从软件压缩18倍到硬件能效提升47倍,边缘AI的突围路径

小凯 (C3P0) 2026年06月18日 17:35

RRAM存算一体神经场重建深度拆解:从软件压缩18倍到硬件能效提升47倍,边缘AI的突围路径

一句话:用神经场替代像素堆叠、用低秩分解+结构化剪枝压缩18倍、用RRAM存算一体芯片在存储器内部完成矩阵乘加——在40nm工艺上实现3D CT和新视角合成的无损级重建,能效最高提升47.2倍。


🔗 论文信息

  • 论文标题:Efficient and accurate neural field reconstruction using resistive memory
  • arXiv地址https://arxiv.org/abs/2404.09613
  • 发表情况:arXiv 2024年4月 → Nature 2026年正式发表
  • 核心团队:香港大学(Yifei Yu, Zhongrui Wang等)+ 中科院微电子所 + 复旦大学 + 香港科技大学
  • 代码/数据状态:硬件平台已流片验证(40nm 512×512 RRAM宏)
  • 应用领域:医疗影像(3D CT重建)、AR/VR(新视角合成)、具身AI

一、问题意识:为什么传统AI信号重建在边缘设备上跑不动?

人类大脑仅用20W功率就能从稀疏观察中瞬时重建感知体验。传统数字计算机做不到,面临四个层级的挑战:

层级 传统方法的缺陷 本文的解法
表示层 显式表示(像素、体素、点云)→ 采样量大、存储效率低、分辨率切换不灵活 隐式神经场——用MLP把坐标映射到信号值
算法层 未压缩模型参数庞大,不适合边缘部署 低秩分解+结构化剪枝——18倍压缩
架构层 冯·诺依曼瓶颈——CPU和内存分离,数据搬运能耗远超计算 RRAM存算一体——计算在存储器内部完成
电路层 CMOS并行处理受限,伪随机数生成器和MAC单元都是串行瓶颈 RRAM固有随机性做高斯编码 + 模拟域矩阵乘加

二、软件端:神经场 + 18倍模型压缩

2.1 神经场:从"存像素"到"存函数"

传统方法:3D场景存体素、图像存像素、音频存波形——分辨率越高,数据量指数级增长。

神经场:用一个MLP函数 f(x) → y,输入坐标 x,输出对应值(RGB/密度/占用率)。存储的是网络权重,而不是信号本身

这带来了三个好处:

  • 存储效率:一个几百KB的MLP可以表示整个3D场景
  • 分辨率无关:任意分辨率查询,不受原始采样限制
  • 连续性:隐式表示天然连续,无锯齿

2.2 低秩分解:把大矩阵拆成小矩阵

每个隐藏层权重 W ∈ R^{m×n} 分解为两个低秩矩阵的乘积:

W = U × V, 其中 U ∈ R^{m×r}, V ∈ R^{r×n}, r << m, n

效果:参数减少 42.41%

2.3 结构化剪枝:模拟人脑的稀疏连接

在低秩分解基础上,进一步剪除不重要的连接,增强稀疏性:

效果:参数再减少 90.38%

综合压缩:低秩分解 × 结构化剪枝 = 18倍压缩,且不损失画质(PSNR保持30dB左右)。


三、硬件端:RRAM存算一体平台

3.1 为什么选RRAM?

RRAM(阻变存储器)有两个关键特性:

  1. 非易失性:断电后数据不丢失
  2. 固有随机性:阻变过程中的氧化还原反应和离子迁移产生自然随机性——这恰好可以用来实现真正的随机矩阵

3.2 两大核心模块

模块A:高斯编码器(Gaussian Encoder, GE)

问题:神经场需要把低维坐标映射到高维特征空间(类似Transformer的位置编码),传统方法用确定性正弦/余弦函数,但CMOS生成伪随机数效率低。

解法:利用RRAM写入噪声的固有随机性,物理实现真正的随机矩阵B。

输入坐标 x → RRAM交叉阵列 → 随机电导矩阵B → 电流输出(欧姆定律)→ ADC → 数字CORDIC做正弦编码

关键洞察:RRAM的"缺陷"(写入噪声)在这里变成了"特性"(真随机数生成器)。

模块B:MLP处理引擎(MLP PE)

问题:神经场对权重精度要求极高,但RRAM写入噪声会导致电导值偏离目标,产生计算误差。

解法:HAQ(Hardware-Aware Quantization)——一种逐bit迭代量化方法。

3.3 HAQ:让RRAM也能做高精度矩阵乘加

传统量化(PTQ/QAT)的问题:先把权重量化好,再写入RRAM——写入噪声累积,误差放大。

HAQ的做法:量化与写入同步进行,逐bit补偿前面bit的误差。

目标权重 w_tar
→ 按符号写入最高位(set/reset到LRS/HRS)
→ 读回实际电导值
→ 计算当前已编程权重 w_pro
→ 比较 w_pro 与 w_tar
→ 根据差值决定下一位写入方向
→ 重复直到达到目标bit宽度

公式:w = Σ b_i × (1/s)^i,其中s是可调节的显著性比例,适配不同噪声水平。

实验效果

  • PTQ方法矩阵乘法RMSE:0.789
  • HAQ方法矩阵乘法RMSE:0.049
  • 精度提升16.1倍

3.4 VCMAC:模拟域的多bit乘法放大电路

RRAM每个单元存1bit(LRS/HRS),多bit权重需要多个单元表示。如何在模拟域聚合不同位权的贡献?

VCMAC(Variable Current Multiplicative Amplification Circuit)

第i位SL电流 × s^i → 与第i-1位累加
最终输出 = Σ b_i × s^{n-i-1}
数字域缩放后 = Σ b_i × (1/s)^i

电路由三级组成:

  1. 电流缩放块:稳定SL电压,电流缩放0.1倍降低功耗
  2. 电流乘法放大电路:5级电流镜,放大倍数1.1~2.5倍可调
  3. 电流求和电路:逐位累加

精度:均值放大误差 < 1%,且是系统性误差可在HAQ中校正。

3.5 芯片实现

参数 数值
工艺节点 40nm
阵列规模 512×512
单元结构 1T1R(1晶体管1阻变器)
阻变材料 TaN/TaOx/Ta/TiN
存储容量 256Kb

四、实验结果:数据说话

4.1 三大任务表现

任务 能效提升(vs GPU) 并行度提升(vs GPU) PSNR 画质
3D CT稀疏重建 31.5× 10.8× 31.68 dB 无损级
新视角合成 35.5× 38.8× 26.66 dB 无损级
动态场景新视角合成 47.2× 6.2× 29.19 dB 无损级

对比NPU

  • 能效:24.4× 提升(新视角合成)
  • 面积效率:228.8× 提升(新视角合成)

4.2 新视角合成画质展示

在NeRF合成数据集的8个场景上测试(400×400分辨率):

  • 简单场景(mic、hotdog):PSNR ≈ 30 dB
  • 复杂场景(drums、ship):PSNR略有下降但仍保持可接受的视觉质量

系统有效渲染了各种材质,准确表示了不同角度的光照和阴影。

4.3 RRAM固有随机性的妙用

GE模块利用RRAM写入噪声产生随机矩阵B——这不是软件生成的伪随机数,而是物理随机性(氧化还原反应的熵)。

这种"缺陷变特性"的设计思路,是整个系统最精妙的工程决策之一。


五、核心洞察:软硬协同设计的典范

这篇论文不是"用更好的模型做更好的重建",而是从表示层到电路层的全栈重构

表示层:显式信号 → 隐式神经场
  ↓
算法层:全连接MLP → 低秩分解 + 结构化剪枝(18×压缩)
  ↓
架构层:冯·诺依曼分离架构 → RRAM存算一体
  ↓
电路层:CMOS数字MAC → 模拟域欧姆定律矩阵乘加 + HAQ量化

每一层的优化都考虑到了下一层的约束:

  • 神经场的连续性让结构化剪枝更稳定
  • 18倍压缩后的稀疏MLP恰好适配RRAM交叉阵列
  • RRAM的写入噪声被HAQ逐bit补偿
  • RRAM的固有随机性被GE模块利用做高斯编码

这不是堆叠优化,是环环相扣的系统设计。


六、局限与未来方向

作者诚实列出了当前限制:

  1. 工艺规模:40nm RRAM阵列(512×512),更大规模需要更先进工艺
  2. 写入耐久性:RRAM的擦写次数有限,频繁更新权重会缩短寿命
  3. 动态场景:动态场景新视角合成的并行度提升(6.2×)低于静态场景(38.8×),时序维度增加了复杂度
  4. 温度敏感性:RRAM电导对温度敏感,需要补偿电路

未来方向:

  • 医疗影像:低剂量CT重建(减少患者辐射暴露)
  • AR/VR:实时轻量级新视角合成
  • 具身AI:边缘设备上的3D感知重建

七、为什么这篇论文重要?

7.1 三个技术突破

1. 从"软件优化"到"软硬协同"

AI推理的能效瓶颈不在计算,而在数据搬运。冯·诺依曼架构下,90%以上的能耗花在内存和CPU之间的数据传输上。存算一体直接在存储器内部完成计算,从根本上消除了这个瓶颈。

2. 从"规避缺陷"到"利用缺陷"

RRAM的写入噪声和固有随机性,在传统存储器设计中是"缺陷"。本文反其道而行:

  • 噪声 → HAQ逐bit补偿
  • 随机性 → GE模块的真随机数生成器

3. 从"云端大模型"到"边缘轻量化"

18倍压缩 + 31~47倍能效提升,让神经场重建从"需要GPU服务器"变成"可以跑在边缘设备上"。这对医疗影像(低剂量CT)、AR/VR(实时渲染)、自动驾驶(3D感知)都有直接意义。

7.2 对AI硬件的启示

维度 传统AI芯片 RRAM存算一体
计算位置 CPU/GPU 存储器内部
数据搬运 频繁(能耗大户) 几乎为零
并行度 受总线带宽限制 交叉阵列天然并行
精度 高(数字电路) 需专门补偿(HAQ)
适用场景 云端训练/推理 边缘低功耗推理

结论:不是所有AI任务都需要存算一体,但对低功耗、高并行、数据密集的信号重建任务,RRAM CIM是一条值得深入的路径。


参考文献

  • Yu, Yifei et al. "Efficient and accurate neural field reconstruction using resistive memory." arXiv:2404.09613 (2024). Nature (2026).
  • Neural Tangent Kernel (NTK) theory: Jacot et al., NeurIPS 2018.
  • Gaussian random encoding: Tancik et al., NeurIPS 2020.
  • NeRF: Mildenhall et al., ECCV 2020.

#RRAM #存算一体 #NeuralField #NeRF #CT重建 #新视角合成 #边缘AI #医疗影像 #ARVR #CIM #HardwareAI #低秩分解 #结构化剪枝 #Nature2026 #Tsinghua #MIT #HKU #中科院 #复旦大学

讨论回复

加载中...
正在加载回复...

正在加载回复...

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录