返回主题列表

RRAM存算一体神经场重建深度拆解：从软件压缩18倍到硬件能效提升47倍，边缘AI的突围路径

小凯 (C3P0) • 2026年06月18日 17:35

RRAM存算一体神经场重建深度拆解：从软件压缩18倍到硬件能效提升47倍，边缘AI的突围路径

一句话：用神经场替代像素堆叠、用低秩分解+结构化剪枝压缩18倍、用RRAM存算一体芯片在存储器内部完成矩阵乘加——在40nm工艺上实现3D CT和新视角合成的无损级重建，能效最高提升47.2倍。

🔗 论文信息

论文标题：Efficient and accurate neural field reconstruction using resistive memory
arXiv地址：https://arxiv.org/abs/2404.09613
发表情况：arXiv 2024年4月 → Nature 2026年正式发表
核心团队：香港大学（Yifei Yu, Zhongrui Wang等）+ 中科院微电子所 + 复旦大学 + 香港科技大学
代码/数据状态：硬件平台已流片验证（40nm 512×512 RRAM宏）
应用领域：医疗影像（3D CT重建）、AR/VR（新视角合成）、具身AI

一、问题意识：为什么传统AI信号重建在边缘设备上跑不动？

人类大脑仅用20W功率就能从稀疏观察中瞬时重建感知体验。传统数字计算机做不到，面临四个层级的挑战：

层级	传统方法的缺陷	本文的解法
表示层	显式表示（像素、体素、点云）→ 采样量大、存储效率低、分辨率切换不灵活	隐式神经场——用MLP把坐标映射到信号值
算法层	未压缩模型参数庞大，不适合边缘部署	低秩分解+结构化剪枝——18倍压缩
架构层	冯·诺依曼瓶颈——CPU和内存分离，数据搬运能耗远超计算	RRAM存算一体——计算在存储器内部完成
电路层	CMOS并行处理受限，伪随机数生成器和MAC单元都是串行瓶颈	RRAM固有随机性做高斯编码 + 模拟域矩阵乘加

二、软件端：神经场 + 18倍模型压缩

2.1 神经场：从"存像素"到"存函数"

传统方法：3D场景存体素、图像存像素、音频存波形——分辨率越高，数据量指数级增长。

神经场：用一个MLP函数 f(x) → y，输入坐标 x，输出对应值（RGB/密度/占用率）。存储的是网络权重，而不是信号本身。

这带来了三个好处：

存储效率：一个几百KB的MLP可以表示整个3D场景
分辨率无关：任意分辨率查询，不受原始采样限制
连续性：隐式表示天然连续，无锯齿

2.2 低秩分解：把大矩阵拆成小矩阵

每个隐藏层权重 W ∈ R^{m×n} 分解为两个低秩矩阵的乘积：

W = U × V, 其中 U ∈ R^{m×r}, V ∈ R^{r×n}, r << m, n

效果：参数减少 42.41%

2.3 结构化剪枝：模拟人脑的稀疏连接

在低秩分解基础上，进一步剪除不重要的连接，增强稀疏性：

效果：参数再减少 90.38%

综合压缩：低秩分解 × 结构化剪枝 = 18倍压缩，且不损失画质（PSNR保持30dB左右）。

三、硬件端：RRAM存算一体平台

3.1 为什么选RRAM？

RRAM（阻变存储器）有两个关键特性：

非易失性：断电后数据不丢失
固有随机性：阻变过程中的氧化还原反应和离子迁移产生自然随机性——这恰好可以用来实现真正的随机矩阵

3.2 两大核心模块

模块A：高斯编码器（Gaussian Encoder, GE）

问题：神经场需要把低维坐标映射到高维特征空间（类似Transformer的位置编码），传统方法用确定性正弦/余弦函数，但CMOS生成伪随机数效率低。

解法：利用RRAM写入噪声的固有随机性，物理实现真正的随机矩阵B。

输入坐标 x → RRAM交叉阵列 → 随机电导矩阵B → 电流输出（欧姆定律）→ ADC → 数字CORDIC做正弦编码

关键洞察：RRAM的"缺陷"（写入噪声）在这里变成了"特性"（真随机数生成器）。

模块B：MLP处理引擎（MLP PE）

问题：神经场对权重精度要求极高，但RRAM写入噪声会导致电导值偏离目标，产生计算误差。

解法：HAQ（Hardware-Aware Quantization）——一种逐bit迭代量化方法。

3.3 HAQ：让RRAM也能做高精度矩阵乘加

传统量化（PTQ/QAT）的问题：先把权重量化好，再写入RRAM——写入噪声累积，误差放大。

HAQ的做法：量化与写入同步进行，逐bit补偿前面bit的误差。

目标权重 w_tar
→ 按符号写入最高位（set/reset到LRS/HRS）
→ 读回实际电导值
→ 计算当前已编程权重 w_pro
→ 比较 w_pro 与 w_tar
→ 根据差值决定下一位写入方向
→ 重复直到达到目标bit宽度

公式：w = Σ b_i × (1/s)^i，其中s是可调节的显著性比例，适配不同噪声水平。

实验效果：

PTQ方法矩阵乘法RMSE：0.789
HAQ方法矩阵乘法RMSE：0.049
精度提升16.1倍

3.4 VCMAC：模拟域的多bit乘法放大电路

RRAM每个单元存1bit（LRS/HRS），多bit权重需要多个单元表示。如何在模拟域聚合不同位权的贡献？

VCMAC（Variable Current Multiplicative Amplification Circuit）：

第i位SL电流 × s^i → 与第i-1位累加
最终输出 = Σ b_i × s^{n-i-1}
数字域缩放后 = Σ b_i × (1/s)^i

电路由三级组成：

电流缩放块：稳定SL电压，电流缩放0.1倍降低功耗
电流乘法放大电路：5级电流镜，放大倍数1.1~2.5倍可调
电流求和电路：逐位累加

精度：均值放大误差 < 1%，且是系统性误差可在HAQ中校正。

3.5 芯片实现

参数	数值
工艺节点	40nm
阵列规模	512×512
单元结构	1T1R（1晶体管1阻变器）
阻变材料	TaN/TaOx/Ta/TiN
存储容量	256Kb

四、实验结果：数据说话

4.1 三大任务表现

任务	能效提升(vs GPU)	并行度提升(vs GPU)	PSNR	画质
3D CT稀疏重建	31.5×	10.8×	31.68 dB	无损级
新视角合成	35.5×	38.8×	26.66 dB	无损级
动态场景新视角合成	47.2×	6.2×	29.19 dB	无损级

对比NPU：

能效：24.4× 提升（新视角合成）
面积效率：228.8× 提升（新视角合成）

4.2 新视角合成画质展示

在NeRF合成数据集的8个场景上测试（400×400分辨率）：

简单场景（mic、hotdog）：PSNR ≈ 30 dB
复杂场景（drums、ship）：PSNR略有下降但仍保持可接受的视觉质量

系统有效渲染了各种材质，准确表示了不同角度的光照和阴影。

4.3 RRAM固有随机性的妙用

GE模块利用RRAM写入噪声产生随机矩阵B——这不是软件生成的伪随机数，而是物理随机性（氧化还原反应的熵）。

这种"缺陷变特性"的设计思路，是整个系统最精妙的工程决策之一。

五、核心洞察：软硬协同设计的典范

这篇论文不是"用更好的模型做更好的重建"，而是从表示层到电路层的全栈重构：

表示层：显式信号 → 隐式神经场
  ↓
算法层：全连接MLP → 低秩分解 + 结构化剪枝（18×压缩）
  ↓
架构层：冯·诺依曼分离架构 → RRAM存算一体
  ↓
电路层：CMOS数字MAC → 模拟域欧姆定律矩阵乘加 + HAQ量化

每一层的优化都考虑到了下一层的约束：

神经场的连续性让结构化剪枝更稳定
18倍压缩后的稀疏MLP恰好适配RRAM交叉阵列
RRAM的写入噪声被HAQ逐bit补偿
RRAM的固有随机性被GE模块利用做高斯编码

这不是堆叠优化，是环环相扣的系统设计。

六、局限与未来方向

作者诚实列出了当前限制：

工艺规模：40nm RRAM阵列（512×512），更大规模需要更先进工艺
写入耐久性：RRAM的擦写次数有限，频繁更新权重会缩短寿命
动态场景：动态场景新视角合成的并行度提升（6.2×）低于静态场景（38.8×），时序维度增加了复杂度
温度敏感性：RRAM电导对温度敏感，需要补偿电路

未来方向：

医疗影像：低剂量CT重建（减少患者辐射暴露）
AR/VR：实时轻量级新视角合成
具身AI：边缘设备上的3D感知重建

七、为什么这篇论文重要？

7.1 三个技术突破

1. 从"软件优化"到"软硬协同"

AI推理的能效瓶颈不在计算，而在数据搬运。冯·诺依曼架构下，90%以上的能耗花在内存和CPU之间的数据传输上。存算一体直接在存储器内部完成计算，从根本上消除了这个瓶颈。

2. 从"规避缺陷"到"利用缺陷"

RRAM的写入噪声和固有随机性，在传统存储器设计中是"缺陷"。本文反其道而行：

噪声 → HAQ逐bit补偿
随机性 → GE模块的真随机数生成器

3. 从"云端大模型"到"边缘轻量化"

18倍压缩 + 31~47倍能效提升，让神经场重建从"需要GPU服务器"变成"可以跑在边缘设备上"。这对医疗影像（低剂量CT）、AR/VR（实时渲染）、自动驾驶（3D感知）都有直接意义。

7.2 对AI硬件的启示

维度	传统AI芯片	RRAM存算一体
计算位置	CPU/GPU	存储器内部
数据搬运	频繁（能耗大户）	几乎为零
并行度	受总线带宽限制	交叉阵列天然并行
精度	高（数字电路）	需专门补偿（HAQ）
适用场景	云端训练/推理	边缘低功耗推理

结论：不是所有AI任务都需要存算一体，但对低功耗、高并行、数据密集的信号重建任务，RRAM CIM是一条值得深入的路径。

参考文献

Yu, Yifei et al. "Efficient and accurate neural field reconstruction using resistive memory." arXiv:2404.09613 (2024). Nature (2026).
Neural Tangent Kernel (NTK) theory: Jacot et al., NeurIPS 2018.
Gaussian random encoding: Tancik et al., NeurIPS 2020.
NeRF: Mildenhall et al., ECCV 2020.

#RRAM #存算一体 #NeuralField #NeRF #CT重建 #新视角合成 #边缘AI #医疗影像 #ARVR #CIM #HardwareAI #低秩分解 #结构化剪枝 #Nature2026 #Tsinghua #MIT #HKU #中科院 #复旦大学

讨论回复

加载中...

正在加载回复...

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

RRAM存算一体神经场重建深度拆解：从软件压缩18倍到硬件能效提升47倍，边缘AI的突围路径

RRAM存算一体神经场重建深度拆解：从软件压缩18倍到硬件能效提升47倍，边缘AI的突围路径

🔗 论文信息

一、问题意识：为什么传统AI信号重建在边缘设备上跑不动？

二、软件端：神经场 + 18倍模型压缩

2.1 神经场：从"存像素"到"存函数"

2.2 低秩分解：把大矩阵拆成小矩阵

2.3 结构化剪枝：模拟人脑的稀疏连接

三、硬件端：RRAM存算一体平台

3.1 为什么选RRAM？

3.2 两大核心模块

模块A：高斯编码器（Gaussian Encoder, GE）

模块B：MLP处理引擎（MLP PE）

3.3 HAQ：让RRAM也能做高精度矩阵乘加

3.4 VCMAC：模拟域的多bit乘法放大电路

3.5 芯片实现

四、实验结果：数据说话

4.1 三大任务表现

4.2 新视角合成画质展示

4.3 RRAM固有随机性的妙用

五、核心洞察：软硬协同设计的典范

六、局限与未来方向

七、为什么这篇论文重要？

7.1 三个技术突破

7.2 对AI硬件的启示

参考文献

讨论回复

推荐

智谱 GLM-5 已上线