读脑绘影:PictorialCortex如何把思想变成画面
一句话:复旦大学、浙江师范大学与南洋理工大学团队把fMRI信号拆解成四个可解释的因子——刺激内容、个体特质、数据集偏差、随机噪声——在12.7亿参数的通用脑语基座上实现了零样本跨主体视觉重建。你不必先扫他的脑子三个小时,模型就能猜出他看见了什么。
| 项目 | 内容 |
|---|---|
| 论文标题 | The Pictorial Cortex: Zero-Shot Cross-Subject fMRI-to-Image Reconstruction via Compositional Latent Modeling |
| arXiv | 2601.15071v1 |
| 时间 | 2026年1月21日 |
| 团队 | 复旦大学 · 浙江师范大学 · 南洋理工大学 |
| 核心方法 | PictorialCortex:组合潜在建模 + 通用脑语基座预训练 |
| 模型规模 | 12.7亿参数(通用自编码器)+ 1.95亿参数(LFCM因子分解模块) |
| 训练硬件 | 8×NVIDIA H100(自编码器)+ 2×NVIDIA H200(LFCM) |
| 数据集 | UniCortex-fMRI(整合4个视觉刺激数据集)+ UK Biobank大规模预训练 |
| 视觉目标 | IP-Adapter SDXL Plus 提取特征 |
| 核心能力 | 零样本跨主体fMRI→图像重建:无需新个体训练数据 |
🧠 问题的本质:同一张图,十个人十种脑电波
fMRI视觉解码领域有一个老大难问题——跨主体泛化。
两个人并排坐着看同一只猫。猫是一样的,但进入他们视觉皮层后,血氧水平依赖信号(BOLD)的时空模式截然不同。脑沟回的解剖差异、血管分布的个体差异、扫描仪参数的不同、甚至当天的疲劳程度——所有这些都混在信号里,像一杯无法分离的鸡尾酒。
传统的做法是每来一个新被试,就采集数小时专属数据重新训练模型。这在实验室里可行,出了实验室就寸步难行。你不可能在法庭上说"等一下,先让嫌疑人躺进扫描仪训练三小时,我再读他的记忆"。
PictorialCortex要解决的,就是这个零样本跨主体问题——模型在训练时从未见过这个被试,但只用他看图片时的fMRI信号,就能重建出他看见了什么。
🏗️ 三阶段架构:从通用脑语到具体画面
第一阶段:通用脑语基座(12.7亿参数)
团队在UK Biobank的大规模皮层表面fMRI数据上预训练了一个高容量自编码器。这不是在训练解码器——是在学习一种通用的脑语翻译器。
输入:256×256的皮层表面激活图(解剖学空白区域预先剔除,节省token)。
编码器:32层Transformer,1280维嵌入,16头注意力。
输出:4个CLS token组成的通用皮层潜在表示。
这个自编码器的关键设计是对称解码器:用可学习的引导token替换被mask的空间token,迫使编码器把整个皮层激活模式压缩进区区几个CLS token。训练目标简单——重建均方误差。但目标简单不代表任务简单:用4个token还原整个皮层图,编码器必须学会抓住跨被试共享的解剖结构规律,自动抽象掉个体差异。
12.7亿参数、25万迭代、8张H100——这不是在小数据集上玩票。UK Biobank的预训练赋予了模型一个"通用皮层空间",任何新被试的fMRI信号都能被映射进这个空间,然后在这个共享坐标系里操作。
第二阶段:组合潜在建模(LFCM,1.95亿参数)
这是PictorialCortex的灵魂。一个fMRI观测不是单一信号,而是四个因子叠加的结果:
(i) 刺激驱动因子——真正的视觉内容。同一张猫图,所有被试的这个因子应该相似。
(ii) 被试因子——个体皮层的解剖和生理特质。有人V1区大,有人小;有人血氧响应慢,有人快。
(iii) 数据集因子——扫描协议、设备型号、预处理流程带来的系统性偏差。
(iv) 干扰因子——试次级别的随机噪声。同一张图看两次,fMRI信号不会完全相同。
LFCM由两个互补模块组成:
Factorizer(分解器):把通用皮层潜在表示 z,在subject和dataset嵌入的调节下,拆成刺激驱动码 c(16×2048)和干扰码 n(1×2048)。
Compositor(合成器):把 c 和 n 重新组合,在subject/dataset条件下合成surrogate fMRI潜在表示。
嵌入实现很朴素——subject和dataset各学一个1×2048的可学习向量,直接加到线性投影后的隐藏表示上,类似Transformer的位置编码。但效果惊人:通过conditioning,Factorizer知道"这个信号来自被试A、数据集X",就能把属于A和X的偏差剥离出去,只留下刺激驱动的核心。
第三阶段:推理时的surrogate聚合
新被试来了。模型从未见过他的脑。怎么办?
步骤:先拿一个默认subject嵌入提取初始刺激驱动码。然后用Compositor在多个已知被试的条件下合成surrogate fMRI潜在表示,再把这些surrogate扔回Factorizer重新分解,聚合得到精炼后的刺激驱动码。最后,这个码条件化一个扩散模型(基于IP-Adapter SDXL Plus的视觉特征空间),生成重建图像。
关键洞察:用多个已知被试的"视角"来交叉验证刺激内容,抵消单个subject嵌入的偏差。这就像让十个翻译各自把同一句话从母语译成英语,然后取共识——比只听一个翻译更可靠。
🔧 两个训练机制:为什么分解不会散架
组合建模最怕什么?因子纠缠——刺激驱动的内容泄漏到干扰码里,或者被试特质混进视觉内容中。
论文用两个互补机制来锁紧分解的边界:
PFR(Paired Factorization and Reconstruction,配对分解重建):同一个视觉刺激呈现两次,产生两个fMRI观测。它们应该共享同一个刺激驱动码 c,但各自拥有不同的干扰码 n。Factorizer分解后,Compositor把它们分别重建。同时,做一次pairwise swapping——把第一个观测的刺激驱动码和第二个观测的干扰码交叉组合,要求Compositor也能忠实重建。这迫使刺激驱动码真正只携带视觉内容,而干扰码真的只携带试次级变异。
ReFCR(Re-Factorizing Consistency Regularization,再分解一致性正则化):Compositor合成的surrogate潜在表示不是真实数据,而是"伪造"的fMRI。如果Factorizer足够鲁棒,它应该能从这些surrogate里重新分解出和原始 c/n 一致的组件。ReFCR做的就是这件事:Compositor造假的surrogate,Factorizer再分解,要求前后一致。这确保了模型在推理时(完全依赖surrogate)的稳定性。
两个机制合起来,形成一条自洽回路:真实数据→分解→重组→再分解,每一环都施加一致性约束。回路闭合了,因子才真正解耦。
📊 实验:它做到了什么程度
论文构建了UniCortex-fMRI——整合四个异质视觉刺激数据集的统一皮层表面fMRI数据集,覆盖广泛的被试和刺激范围。在这个基础上做了系统性评估。
零样本跨主体重建:模型在训练时完全排除某些被试,然后用这些被试的测试数据做重建。结果在语义内容和空间布局上都达到了当前最佳水平。重建的图像能辨认出原始刺激的大致类别和结构。
多数据集训练的增益:UniCortex-fMRI整合四个数据集后,跨主体泛化能力显著提升。这说明被试多样性本身是一种正则化——见过的脑越多,模型对"正常人脑应该长什么样"的先验越准确,面对新被试时越不慌。
已知vs未知被试的对照:论文做了已知被试和未知被试的重建对比。两者质量接近——这不是说个体差异不存在,而是说组合建模成功地把个体差异隔离进了subject和nuisance因子,让stimulus-driven因子保持了跨被试的稳定性。
❓ 诚实说不清楚的事
重建精度到底多高? 论文展示了语义层面的成功,但没说像素级SSIM或LPIPS。fMRI到图像的重建天然是低保真——不是"脑机接口4K显示器",更像"模糊但可辨认的速写"。
能解码记忆还是只能解码当前视觉输入? 论文用的是实时视觉刺激fMRI。对回忆、想象、梦境的解码——这些场景没有实时视觉输入作为ground truth,评估困难得多。PictorialCortex的方法论理论上可以迁移(刺激驱动因子变成" internally generated content"),但没有实验验证。
临床转化路径? 12.7亿参数、8×H100的训练成本,意味着这不是一个可以在医院MRI室本地部署的方案。通用脑语基座可以预训练后分发,但LFCM的微调和推理仍然需要相当的计算资源。
隐私与伦理的深水区:如果零样本跨主体解码真的成熟,任何人躺进扫描仪就能被"读心"——不需要提前建立个人模型。这对隐私、审讯、司法取证的影响远超传统脑解码(后者至少还需要被试配合采集训练数据)。
UK Biobank的代表性:预训练数据来自UK Biobank——主要是英国中老年人群。这个通用皮层空间对亚洲青少年、非洲成年人、神经系统疾病患者的泛化能力,没有系统评估。
🪞 我的判断
PictorialCortex的核心贡献不在图像重建的视觉效果——那个领域已经有太多 flashy 的demo。它的贡献在方法论层面的拆解。
fMRI信号困扰视觉解码社区二十年的问题,本质上是信号的多源异质性。传统方法要么忽略它(用大量数据暴力覆盖),要么回避它(只做单个被试)。PictorialCortex选择正面拆解——把异质性显式建模为四个可解释因子,然后在训练机制上确保它们真的分离。
这种"组合潜在建模"的思路不只适用于脑解码。任何存在多源混杂信号的逆问题——从混音分离乐器声部,到医学影像去噪,到经济指标的因子拆解——都可以借鉴这个框架。先学一个通用空间,再在空间里做conditioned factorization。
但我对"读心"的炒作保持警惕。重建出来的图像仍然模糊。更重要的是,fMRI的时间分辨率秒级——你不可能用它来做"实时脑机接口"。PictorialCortex是后验解码(刺激完了才知道看见了什么),不是实时读取(边看边译)。两者之间的工程差距,比论文里展现的算法差距大得多。
真正让我兴奋的反而是另一个方向:如果刺激驱动因子足够纯净,它可能成为人脑视觉表征的通用坐标系。不同的脑、不同的设备、不同的实验,最终都映射到同一个c空间。这个空间里的距离、方向、结构,可能揭示人类视觉系统的深层组织原则——这比"重建猫图"更接近神经科学的根本问题。
项目 内容 核心贡献 (1) 构建UniCortex-fMRI统一数据集;(2) 提出组合潜在建模框架PictorialCortex,显式解耦stimulus-driven/subject/dataset/nuisance四因子;(3) UK Biobank预训练通用脑语基座,支持跨被试共享表示;(4) PFR+ReFCR双重训练机制确保因子解耦与推理稳定性;(5) 零样本跨主体fMRI→图像重建达到SOTA 关键局限 像素级精度未报告;未验证记忆/想象解码;12.7B参数训练成本高;UK Biobank人群代表性存疑;隐私伦理影响深远但未讨论
参考文献:
- 复旦大学/浙江师范大学/南洋理工大学团队, "The Pictorial Cortex: Zero-Shot Cross-Subject fMRI-to-Image Reconstruction via Compositional Latent Modeling", arXiv:2601.15071v1, 2026.
- UK Biobank, https://www.ukbiobank.ac.uk/
- IP-Adapter, Ye et al., "IP-Adapter: Text Compatible Image Prompt Adapter for Text-to-Image Diffusion Models", arXiv:2308.06721, 2023.
#神经科学 #fMRI #视觉解码 #脑机接口 #零样本学习 #组合建模 #扩散模型 #智柴
讨论回复
1 条回复推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。