視覺皮層的極限壓縮：5000倍參數削減揭示大腦計算的簡潔之美

論文資訊

項目	內容
標題	Compact deep neural network models of visual cortex
作者	Benjamin R. Cowley, Patricia L. Stan, Jonathan W. Pillow, Matthew A. Smith
機構	Cold Spring Harbor Laboratory, Princeton Neuroscience Institute, Carnegie Mellon University
發表	bioRxiv, 2023.11.22.568315
DOI	10.1101/2023.11.22.568315
開放獲取	✅ CC-BY-NC-ND 4.0

---

一句話摘要

這項研究用知識蒸餾與深度剪枝將視覺皮層V4的神經預測模型從約9000萬參數壓縮到約1萬參數（5000倍壓縮），卻保持了R²=0.55的高預測準確率——不僅優於ResNet50，更揭示了生物視覺系統用極少數Gabor-like濾波器通過「精確合併」實現多樣化特徵選擇的簡潔計算原理。

---

研究背景：黑箱困境

深度神經網絡（DNN）在預測視覺皮層神經反應方面取得了驚人成功——將圖像輸入ImageNet訓練的ResNet50，其內部中間層激活能相當準確地預測V4和IT區域的神經反應。

但問題是：這些模型有數千萬參數，內部計算幾乎不可解釋。我們是否只是用一個複雜的人工系統（in silico）替代了另一個複雜的生物系統（in vivo）？

傳統的線性-非線性（LN）模型能很好解釋視網膜和V1神經元，但對V4這樣的高階視覺區域完全失效——V4神經元對邊緣、曲線、紋理、顏色等特徵有高度多樣化的選擇性。

核心問題：預測V4反應所需的最小模型有多大？

---

實驗設計：閉環活體記錄

數據採集

參數	數值
實驗動物	3隻雄性獼猴（Macaca mulatta）
記錄區域	V4（左半球prelunate gyrus）
電極	96通道Blackrock陣列，1mm長，400μm間距
Session數	50個（44訓練 + 1驗證 + 4測試 + 1對比）
神經元總數	~2,600個（每次session ~50個）
測試神經元	219個（held-out）
圖像總數	~78,000張獨特圖像
每session圖像數	~2,000張（400-3,000範圍）
重複次數	2-24次/圖像
時間窗口	刺激開始後50ms起的100ms

閉環主動學習

研究使用閉環主動學習選擇部分圖像： 1. 在每次session前，用已訓練的集成模型對50萬張候選圖像計算預測分歧（集成成員間方差） 2. 選擇分歧最大的圖像呈現給猴子 3. 這種「哪裡不懂問哪裡」的策略最大化信息獲取效率

此外還使用了 「gaudy」圖像——通過二值化像素強度產生的高對比度邊緣圖像，模擬發現這類圖像在訓練DNN模型時比主動學習更高效。

---

模型架構：從巨無霸到極簡主義

第一階段：深度集成模型（~9000萬參數）

為克服過擬合，研究採用兩階段遷移學習：

輸入圖像 (112×112×3)
    ↓
ResNet50 (凍結權重) → activation_33層 (14×14×1024)
    ↓
集成DNN × 25個 (可訓練)
    ├── 1×1卷積：1024→512
    ├── 可分離2D卷積 (3×3, stride-2, 512濾波器)
    ├── 4個ResNet-like跳躍連接塊 (每塊：256濾波器可分離卷積 + 1×1擴展到512)
    └── 因子化線性映射 → V4反應
    ↓
25個預測取平均

關鍵設計：因子化線性映射

標準線性回歸：p×p×k 參數（空間×濾波器）
因子化映射：分為空間池化矩陣 (p×p) + 混合矩陣 (k×1)
參數量從 p²k 降到 p² + k，極大減少過擬合

第二階段：知識蒸餾（600個濾波器）

輸入圖像 (112×112×3)
    ↓
第1層：2D卷積，100濾波器，5×5核
    ↓
第2-5層：可分離2D卷積，100濾波器，5×5核
    (第2、3層stride-2)
    ↓
空間讀出層：線性映射 28×28×100 → 標量V4反應

蒸餾數據：集成模型對1200萬張圖像的預測反應（而非真實V4數據）

優勢：克服真實數據稀缺（每session僅~2,000張圖像）
直接訓練小DNN在真實數據上：R² = 0.11（嚴重過擬合）
蒸餾訓練：利用集成模型豐富的「軟標籤」

第三階段：深度剪枝（~150個濾波器）

通道級剪枝策略（整個濾波器消融）： 1. 輸入5,000張隨機圖像，收集每層輸出活動 2. 按濾波器活動方差排序（方差=信息量） 3. 從最深層開始，逐層向前移除低方差濾波器 4. 保留能解釋該層90%輸出方差的最小濾波器集合 5. 剪枝後重訓練 6. 當性能下降超過5%時停止

結果：每個V4神經元對應一個獨特緊湊模型，共219個。

---

性能結果：小即是美

預測準確率對比

模型	中位數 noise-corrected R²	相對表現
未訓練ResNet50	0.13	基線
任務驅動DNN（ResNet50等）	~0.40	當前SOTA
ResNet50	0.45	具體對照
緊湊模型	0.55	✅ 優於ResNet50
深度集成模型	0.60	比ResNet50好50%

> 註：noise-corrected R² 是無偏估計，校正了重複測量間的噪聲，比傳統R²估計低約0.15。

壓縮比

指標	數值
深度集成模型參數	~90M
蒸餾模型參數	~600濾波器
緊湊模型參數	~150濾波器（約1萬參數）
壓縮比	~5000倍（最高可達9000倍）
相對任務驅動DNN壓縮	~500倍

---

因果驗證：模型說了算嗎？

三種探針圖像

為驗證緊湊模型確實捕捉了真實V4神經元的偏好，研究進行了因果測試：

1. 最大化正常圖像：從50萬張候選圖像中選出激活模型最大的 2. 梯度上升合成圖像：

白噪聲起始（均值128，標準差50）
1000步梯度上升：x_next = x_current + η∇f(x)
每步高斯平滑梯度（σ=1）
每50步高斯平滑圖像

3. 對抗圖像：

最大化/最小化模型輸出的微小擾動
平均像素強度變化閾值：10（確保猴子能感知差異）

驗證結果

在後續session中呈現這些探針圖像，測量真實V4反應：

匹配到的緊湊模型與真實神經元反應高度一致
最大化圖像確實驅動了強烈的神經反應
對抗圖像產生了預期的反應變化

結論：緊湊模型的刺激偏好與真實V4神經元匹配。

---

核心發現：共享基礎 + 精確合併

發現一：早期層濾波器高度共享

比較219個緊湊模型間的卷積核相似性：

第1-2層：核相似性高（接近1）→ 共享Gabor-like濾波器
第3層：中等相似性
第4-5層：低相似性 → 各自特化

這意味著所有V4神經元都從同一組低階特徵提取器開始。

發現二：合併步驟決定特化

CKA（中心化核對齊）相似性分析：

早期層（1-2）的內部表徵高度相似
後期層（4-5）和輸出層的表徵差異巨大
輸出層平均信號相關平方：ρ² = 0.11

核心洞察：V4神經元的多樣性刺激選擇性，並非源於各自獨立的早期視覺通路，而是源於後期層如何「合併」共享的基礎表徵。

發現三：極少共享濾波器就夠用

研究構建了一個「共享緊湊模型」：前3層濾波器在所有V4神經元間共享，後3層允許特化。

共享濾波器數/層	性能
10個/層（共30個）	超過ResNet50
50個/層	達到平台期
100個/層	與50個幾乎相同

僅需50個共享濾波器就能解釋全部219個V4神經元的反應！

控制實驗：固定早期層權重為隨機初始化（僅訓練後期層）→ 性能顯著下降。證明共享濾波器必須經過訓練，而非任意基函數。

---

案例研究：Dot Detector的解剖

選擇模型

選擇一個偏好小圓點的緊湊模型，其最大化圖像顯示為多個小圓點。

人工刺激測試

位置：28×28網格變化，偏好圖像右側
大小：2-22像素半徑，偏好小圓點
數量：1-10個圓點，偏好3-4個
特徵：對位置變化有一定不變性

消融分析：誰在檢測圓點？

Dot Size Invariance (DSI) 指標：

DSI ≈ 1：消融後模型對圓點大小不敏感 → 該濾波器對圓點選擇性至關重要
DSI ≈ 0：消融後模型仍保持圓點選擇性 → 該濾波器無關

關鍵發現：

第1-3層濾波器的DSI普遍 < 0.5（弱貢獻）
第4層一個濾波器（L4F1）DSI ≈ 1（強貢獻）
但第3層沒有單個濾波器是強貢獻者！

這暗示：圓點檢測是合併步驟湧現的性質，非任何單個早期濾波器的功能。

累積消融：找出關鍵濾波器

貪婪策略：每次消融對DSI增加最小的濾波器（即貢獻最弱的）。

消融前40個濾波器（共54個）→ DSI仍低
最後約10個濾波器被消融時 → DSI急劇上升
約10個第3層濾波器是圓點選擇性的核心

圓點檢測的計算機制

分析6個最關鍵的第3層濾波器：

小圓點輸入時：

4個興奮性濾波器：各自響應圓點的四個角邊曲線 → 輸出活動空間重疊
2個抑制性濾波器：響應大邊緣 → 小圓點無大邊緣，輸出弱負值
元素求和 + ReLU → 大量正活動 → 檢測到圓點

大圓點輸入時：

4個興奮性濾波器：雖仍響應角邊，但輸出活動不再空間重疊
2個抑制性濾波器：大邊緣存在，提供強抑制
元素求和 + ReLU → 少量活動 → 未檢測到圓點

概念模型：

小圓點： 興奮重疊 + 抑制弱   → 強響應
大圓點： 興奮不重疊 + 抑制強 → 弱響應

這是一個經典的神經計算電路：興奮性匯合 + 抑制性調節，通過空間重疊模式實現尺寸選擇性。

---

方法論貢獻：壓縮框架

為何有效？

1. 彩票假說（Lottery Ticket Hypothesis）：大網絡包含許多子網絡，剪枝找到「中獎票」 2. 蒸餾解決數據稀缺：用集成模型對1200萬圖像的預測作為「無限數據」 3. 通道級剪枝：整個濾波器移除，保持核權重平滑可解釋 4. 從深到淺剪枝：先剪後期層，確保前期層保留足夠信息

與傳統方法的對比

方法	優勢	局限
直接訓練小DNN	簡單	過擬合嚴重（R²=0.11）
任務驅動DNN	無需神經數據	非最優化，參數過多
本研究：蒸餾+剪枝	高準確率+可解釋+極小參數	需要大量初始數據和計算

---

討論與意義

挑戰「越大越好」的認知

這項研究直接挑戰了「模擬大腦需要巨型模型」的固有認知：

ResNet50有數千萬參數，預測R²=0.45
緊湊模型僅約1萬參數，預測R²=0.55
更小、更專門的模型反而更準確

這暗示：當前計算神經科學使用的任務驅動DNN是「不必要地大」。任務驅動DNN被優化用於物體識別，而非神經預測——它們的大量參數包含了與V4計算無關的信息。

生物視覺的簡潔性

核心結論：V4神經元的多樣特化並非源於各自獨立的早期視覺通路，而是： 1. 共享少數低階濾波器（類似V1的Gabor濾波器和V2的紋理偏好神經元） 2. 通過精確的突觸連接合併這些共享特徵 3. 同一個V1/V2神經元可能「被重用」於多個V4神經元的不同特化

這與解剖學證據一致：V1→V4的投射是廣泛且重疊的，而非一對一的專用通路。

可驗證的預測

研究提出了可通過實驗驗證的預測： 1. 解剖追蹤：驗證V1/V2神經元是否廣泛投射至多個V4神經元 2. 電路擾動：選擇性激活/抑制特定V1濾波器類型，觀察對多個V4神經元的共同影響 3. 更小模型的可能性：加入環繞抑制、除法歸一化、遞迴等生物機制，可能得到更小的模型

局限與未來方向

局限	未來方向
僅研究特徵編碼	結合trial-to-trial變異性、適應、空間注意等
簡單卷積層	加入 surround suppression、divisive normalization、recurrence
靜態圖像	動態視覺、視覺擁擠、saccade規劃
單一區域	擴展到IT等其他視覺區域

---

技術細節補充

評估指標：Noise-corrected R²

標準R²會因重複測量的噪聲而有偏高估。本研究使用Pospisil & Bair (2021)的無偏估計：

R²_unbiased = [Σ(ẑ_i·z_i)² - σ²/K·Σẑ²_i] / [Σẑ²_i·Σz²_i - σ²/K·(M-1)·Σẑ²_i]

其中σ²是重複間變異性，K是重複次數，M是圖像數量。

傳統方法高估約0.15，這意味著當前領域的模型可能不如文獻中報導的那樣準確。

主動學習與Gaudy圖像

訓練數據類型	效果
隨機正常圖像	基線
主動學習圖像	略優於隨機（分歧驅動）
Gaudy圖像	最佳，甚至優於主動學習

Gaudy圖像（高對比度二值化）雖然對人眼不自然，但能高效驅動V4神經元，暴露模型的弱點。

深度集成模型的設計決策分析

設計選擇	效果
非線性層數	4層跳躍連接最佳
集成大小	25個DNN（兼顧預測與分歧估計）
訓練session數	45個session達到飽和
主動學習/gaudy	顯著提升泛化能力

---

參考資料

1. Cowley BR, Stan PL, Pillow JW, Smith MA. *Compact deep neural network models of visual cortex*. bioRxiv. 2023;568315. DOI: 10.1101/2023.11.22.568315 2. Yamins DLK, DiCarlo JJ. Using goal-driven deep learning models to understand sensory cortex. *Nature Neuroscience*. 2016;19(3):356-365. 3. Pospisil DA, Bair W. The unbiased estimation of the fraction of variance explained by a model. *PLoS Computational Biology*. 2021;17(8):e1009212. 4. Frankle J, Carbin M. The lottery ticket hypothesis: Finding sparse, trainable neural networks. *ICLR*. 2019. 5. Hinton G, Vinyals O, Dean J. Distilling the knowledge in a neural network. *NIPS Deep Learning Workshop*. 2014.

#視覺皮層 #神經科學 #模型壓縮 #知識蒸餾 #深度剪枝 #可解釋AI #V4 #DNN #小凯