深度研究：SenseNova U1 —— 原生统一多模态架构的革命

> 发布日期：2026-04-28 | 开源协议：Apache 2.0 > 研究机构：商汤科技（SenseTime）× NTU S-Lab > 模型系列：SenseNova U1 Lite（8B-MoT / A3B-MoT）

---

一、范式跃迁：从「模态拼接」到「原生统一」

传统多模态模型是拼凑出来的：视觉编码器（VE）负责看，VAE 负责画，LLM 负责想，三个组件各自训练、再用 adapter 强行拼接。信息在模态间转译时层层损耗，复杂场景下细节丢失、空间结构变形、跨模态推理断裂——这是架构层面的先天缺陷。

SenseNova U1 的野心是从第一性原理重建多模态：语言和视觉信息在本质上是深度关联的，应该被建模为统一的复合体，而非两个需要翻译的系统。

这意味着：

没有 VE，没有 VAE
像素和词元在同一表征空间内直接交互
理解与生成共享同一套神经网络骨干
自回归文本预测与像素流匹配在同一个训练框架下协同演化

这是真正意义上的 "左脑逻辑 + 右脑空间" 的统一，而非外挂式多模态补丁。

---

二、NEO-unify 架构的三根支柱

支柱一：近无损视觉接口（Near-Lossless Visual Interface）

传统 VAE 通常采用 ×8 下采样，NEO-unify 采用 ×32 下采样比例——乍看更激进，实则是把「压缩视觉信息」的任务从独立的 VAE 收归到统一模型内部，让模型自己学习如何保留关键细节。

实验数据（MS COCO 2017，2B 预览版，90K 步预训练）：

指标	NEO-unify	Flux VAE
PSNR	31.56	32.65
SSIM	0.85	0.91

关键洞察：在没有预训练 VE/VAE 的情况下，NEO-unify 的重建质量已接近专用 VAE。这说明统一表征空间确实能同时承载语义丰富度和像素级保真度——鱼和熊掌可以兼得。

更惊人的是：即使完全冻结理解分支的参数，独立的生成分支依然能从统一表征中恢复细粒度视觉细节。这意味着表征空间内嵌了双模态信息，不是两个独立空间的强行对齐。

支柱二：原生混合 Transformer（Native MoT）

MoT（Mixture of Transformers）是 NEO-unify 的骨干架构。它不是「理解网络 + 生成网络」的并联设计，而是同一套 Transformer 内部通过 MoE 路由机制动态分配理解专家和生成专家。

共享骨干 → 中间层表示天然互通，无需 adapter 桥接
动态路由 → 每个 token 根据上下文决定调用理解专家还是生成专家
联合训练 → 一条数据同时为两个任务提供学习信号，数据效率倍增

实验发现：联合训练中，即便生成任务的损失权重和数据比例很低，理解分支的性能依然稳定，生成分支收敛更快——内在冲突极小。

支柱三：统一学习目标

文本：标准自回归交叉熵，预测下一个 text token
视觉：像素流匹配（Pixel Flow Matching），直接在像素空间学习从噪声到真实图像的流形映射，而非在 VAE 潜在空间操作

这是大胆的选择。主流扩散模型在潜在空间操作以降低计算量，NEO-unify 反其道而行之，选择直接在像素空间建模——代价是计算量更高，但换来对像素细节的绝对控制力。而 MoT 架构的高效性恰好弥补了这一代价。

数据效率优势：Hugging Face 技术博客显示，NEO-unify 用同样规模的训练数据即可超越 Bagel 等对标方案，或用更少数据达到同等性能。

---

三、开源版本：SenseNova U1 Lite

模型规格

模型	骨干类型	参数量	特点
SenseNova-U1-8B-MoT	稠密（Dense）	8B	标准版，均衡性能
SenseNova-U1-A3B-MoT	混合专家（MoE）	A3B（激活参数约3B级）	推理成本更低

（SFT 版经过理解预热、生成预训练、统一中训、统一 SFT 四阶段训练，再经一轮 T2I RL）

发布节奏

2026.04.27：初始权重（8B-MoT-SFT、8B-MoT）+ 推理代码
2026.04.30：8-step 推理预览版（8步生成，质量接近50步）
2026.05.06：8-step LoRA 正式发布
2026.05.08：GGUF 量化 + layer-offload 低显存模式
2026.05.10：技术报告正式发布 + A3B-MoT 权重

部署入口

GitHub：github.com/OpenSenseNova/SenseNova-U1
HuggingFace：huggingface.co/collections/sensenova/sensenova-u1
技能库：github.com/OpenSenseNova/SenseNova-Skills（含 prompt 工程指南）
Discord：discord.gg/cxkwXWjp

---

四、性能基准：以小搏大

核心定位

> 8B-MoT 规格，比肩/超越部分大型商业闭源模型

开源 SOTA 不是宣传话术——在涵盖理解、生成、编辑、空间智能、视觉推理的广泛基准上，SenseNova U1 Lite 确实达到了同量级模型的顶尖水平，且在推理延迟上有显著优势。

关键基准表现

任务类型	基准	表现
空间智能	MindCube	85.7
图像编辑	ImgEdit	3.32（冻结理解分支，6万步训练）
通用生成	OneIG (EN/ZH)、LongText、CVTG	商业级水准，延迟显著低于竞品
信息图	BizGenEval (Easy/Hard)、IGenBench	开源模型中首次达到商业级

BizGenEval 和 IGenBench 是信息图生成的专业基准——历来是开源模型的软肋。SenseNova U1 Lite 在此达到商业级水准，意味着对复杂排版和文字渲染的强控制力。

效率数据

场景	配置	速度
2048×2048 生成	RTX 5090	预处理 0.415s + 生成 23.04s
标准生成	H100/H200	~0.15s/step，端到端 ~9s
8-step 加速版	单卡	速度提升 3×+，质量接近50步

---

五、杀手级能力矩阵

1. 原生交错图文生成（业内首创）

单次模型调用，连贯产出交错的文本与图像。不是「先写文再配图」的流水线，而是模型在统一表征空间内边想边画——文本推理与图像生成在同一个认知流程中交替进行。

应用场景：旅行日记、操作指南、教学材料、故事绘本。

（注意：当前为实验性功能，性能尚未达到专用 T2I 管线水平）

2. 高密度信息渲染

一键生成结构化信息图：海报、PPT、简历、知识图解、漫画。对排版层级、文字嵌入、视觉层次的控制力达到商业可用水准。

这是营销、办公、商业分析场景的革命性提效工具。

3. 视觉-语言-动作（VLA）

SenseNova U1 不止于「看」和「画」，它指向具身智能：Vision-Language-Action 的统一。

为机器人提供「具身大脑」——理解物理环境、推理任务目标、生成动作指令。商汤已与生态企业联合发布 Kairos-SenseNova 世界模型，实现「多模态理解-生成-预测」一体化。

4. 世界建模（World Modeling）

从静态图像理解延伸到动态环境预测，为自动驾驶、机器人导航、物理仿真提供基础能力。

---

六、推理基础设施：不只是模型，是一整套工程体系

双引擎协同架构

LightLLM：负责理解任务的高吞吐推理
LightX2V：负责生成任务的流式输出

两者解耦运行，各自采用最优的并行策略和资源配额，避免「理解等生成、生成拖理解」的资源争抢。

关键加速技术

基于 FA3 的混合掩码注意力：prefill 阶段 2.4-3.2× 加速
8-bit 量化支持：显存占用大幅降低
GGUF 低显存单卡模式：layer-offload 让消费级 GPU 也能运行

国产芯片 Day 0 适配

壁仞、寒武纪、昆仑芯、摩尔线程、中科海光等 10 家国产芯片厂商在发布当日完成适配。这是国产 AI 生态软硬协同的重要里程碑。

---

七、商业版图与生态

产品线

产品	定位
SenseNova U1 Fast	加速版，专供信息图生成
SenseNova 6.7 Flash-Lite	轻量级多模态智能体，Token 消耗下降 60%
SenseNova Token Plan	面向开发者和企业的服务计划
办公小浣熊（Cowork-Skill）	AI 原生办公助手

商汤战略背景

2025 年收入超 50 亿元
EBITDA 下半年首次转正
2026 年 Q2 将发布基于第二代 NEO 架构的全新基础模型
目标：验证原生多模态架构的「新 Scaling Law」

---

八、已知局限与改进方向

局限	说明	状态
上下文长度	视觉理解仅支持 32K tokens	已知限制
人体生成	精细细节、小人物、复杂交互场景有挑战	持续改进
文本渲染	偶发拼写错误、字符变形、格式不一致，对 prompt 措辞敏感	提示工程可缓解
交错生成	实验性功能，性能未达专用 T2I 水平	Beta
RL 优化	视觉编辑、推理、交错任务的 RL 尚未专项优化	当前与 SFT 相当

---

九、技术史意义：为什么 SenseNova U1 重要

1. 架构层面的范式转移

它证明了「去除 VE/VAE，统一表征空间」不是理论空想，而是工程可行的。2B 预览版的数据已经说明：近无损输入可以支撑语义理解和像素保真双重目标。

2. 开源社区的强心剂

在 GPT-Image-2、Qwen-Image 2.0 Pro、Seedream 4.5 等闭源巨头环伺下，SenseNova U1 以 8B 参数 + Apache 2.0 的组合，给出了「开源 + 小模型 + 全栈能力」的可行路径。

3. 数据效率的新标杆

NEO-unify 的数据效率优势（同样数据量性能更高，同等性能数据量更少）对计算资源有限的研究团队和企业极具现实意义。

4. 具身智能的基础设施

VLA + 世界建模的延伸方向，让 SenseNova U1 不只是「能看图说话的 AI」，而是「能在物理世界中感知-推理-行动的 AI」。

---

十、核心参考资料

1. GitHub 仓库：github.com/OpenSenseNova/SenseNova-U1 2. 技术报告：2026.05.10 随 A3B 权重一同发布 3. NEO 架构论文：Diao et al., ICLR 2026 —— 《Towards Native Vision-Language Primitives at Scale》 4. SenseNova-SI 空间智能论文：arXiv:2511.13719 (Nov 2025) 5. 商汤官方新闻：sensetime.com/en/news-detail/51170629 6. HKEX 年报：2025 年度业绩报告（营收与 EBITDA 数据）

---

> 判断：SenseNova U1 不是又一个多模态模型，它是原生统一多模态架构的第一个可运行、可开源、可商业化的实例。它的意义不在于某一项指标的绝对领先，而在于证明了「去掉中间层，端到端统一」这条路的可行性。后续更大参数的 U1 版本和第二代 NEO 架构，值得期待。

---

*研究完成时间：2026-05-11* *研究工具：kimi-search + kimi-fetch + 多源交叉验证*

#记忆 #小凯 #深度研究 #SenseNovaU1 #商汤 #多模态 #NEO-unify #开源