发布日期:2026-04-28 | 开源协议:Apache 2.0
研究机构:商汤科技(SenseTime)× NTU S-Lab
模型系列:SenseNova U1 Lite(8B-MoT / A3B-MoT)
一、范式跃迁:从「模态拼接」到「原生统一」
传统多模态模型是拼凑出来的:视觉编码器(VE)负责看,VAE 负责画,LLM 负责想,三个组件各自训练、再用 adapter 强行拼接。信息在模态间转译时层层损耗,复杂场景下细节丢失、空间结构变形、跨模态推理断裂——这是架构层面的先天缺陷。
SenseNova U1 的野心是从第一性原理重建多模态:语言和视觉信息在本质上是深度关联的,应该被建模为统一的复合体,而非两个需要翻译的系统。
这意味着:
- 没有 VE,没有 VAE
- 像素和词元在同一表征空间内直接交互
- 理解与生成共享同一套神经网络骨干
- 自回归文本预测与像素流匹配在同一个训练框架下协同演化
这是真正意义上的 "左脑逻辑 + 右脑空间" 的统一,而非外挂式多模态补丁。
二、NEO-unify 架构的三根支柱
支柱一:近无损视觉接口(Near-Lossless Visual Interface)
传统 VAE 通常采用 ×8 下采样,NEO-unify 采用 ×32 下采样比例——乍看更激进,实则是把「压缩视觉信息」的任务从独立的 VAE 收归到统一模型内部,让模型自己学习如何保留关键细节。
实验数据(MS COCO 2017,2B 预览版,90K 步预训练):
| 指标 | NEO-unify | Flux VAE |
|---|---|---|
| PSNR | 31.56 | 32.65 |
| SSIM | 0.85 | 0.91 |
关键洞察:在没有预训练 VE/VAE 的情况下,NEO-unify 的重建质量已接近专用 VAE。这说明统一表征空间确实能同时承载语义丰富度和像素级保真度——鱼和熊掌可以兼得。
更惊人的是:即使完全冻结理解分支的参数,独立的生成分支依然能从统一表征中恢复细粒度视觉细节。这意味着表征空间内嵌了双模态信息,不是两个独立空间的强行对齐。
支柱二:原生混合 Transformer(Native MoT)
MoT(Mixture of Transformers)是 NEO-unify 的骨干架构。它不是「理解网络 + 生成网络」的并联设计,而是同一套 Transformer 内部通过 MoE 路由机制动态分配理解专家和生成专家。
- 共享骨干 → 中间层表示天然互通,无需 adapter 桥接
- 动态路由 → 每个 token 根据上下文决定调用理解专家还是生成专家
- 联合训练 → 一条数据同时为两个任务提供学习信号,数据效率倍增
实验发现:联合训练中,即便生成任务的损失权重和数据比例很低,理解分支的性能依然稳定,生成分支收敛更快——内在冲突极小。
支柱三:统一学习目标
- 文本:标准自回归交叉熵,预测下一个 text token
- 视觉:像素流匹配(Pixel Flow Matching),直接在像素空间学习从噪声到真实图像的流形映射,而非在 VAE 潜在空间操作
这是大胆的选择。主流扩散模型在潜在空间操作以降低计算量,NEO-unify 反其道而行之,选择直接在像素空间建模——代价是计算量更高,但换来对像素细节的绝对控制力。而 MoT 架构的高效性恰好弥补了这一代价。
数据效率优势:Hugging Face 技术博客显示,NEO-unify 用同样规模的训练数据即可超越 Bagel 等对标方案,或用更少数据达到同等性能。
三、开源版本:SenseNova U1 Lite
模型规格
| 模型 | 骨干类型 | 参数量 | 特点 |
|---|---|---|---|
| SenseNova-U1-8B-MoT | 稠密(Dense) | 8B | 标准版,均衡性能 |
| SenseNova-U1-A3B-MoT | 混合专家(MoE) | A3B(激活参数约3B级) | 推理成本更低 |
(SFT 版经过理解预热、生成预训练、统一中训、统一 SFT 四阶段训练,再经一轮 T2I RL)
发布节奏
- 2026.04.27:初始权重(8B-MoT-SFT、8B-MoT)+ 推理代码
- 2026.04.30:8-step 推理预览版(8步生成,质量接近50步)
- 2026.05.06:8-step LoRA 正式发布
- 2026.05.08:GGUF 量化 + layer-offload 低显存模式
- 2026.05.10:技术报告正式发布 + A3B-MoT 权重
部署入口
- GitHub:
github.com/OpenSenseNova/SenseNova-U1 - HuggingFace:
huggingface.co/collections/sensenova/sensenova-u1 - 技能库:
github.com/OpenSenseNova/SenseNova-Skills(含 prompt 工程指南) - Discord:
discord.gg/cxkwXWjp
四、性能基准:以小搏大
核心定位
8B-MoT 规格,比肩/超越部分大型商业闭源模型
开源 SOTA 不是宣传话术——在涵盖理解、生成、编辑、空间智能、视觉推理的广泛基准上,SenseNova U1 Lite 确实达到了同量级模型的顶尖水平,且在推理延迟上有显著优势。
关键基准表现
| 任务类型 | 基准 | 表现 |
|---|---|---|
| 空间智能 | MindCube | 85.7 |
| 图像编辑 | ImgEdit | 3.32(冻结理解分支,6万步训练) |
| 通用生成 | OneIG (EN/ZH)、LongText、CVTG | 商业级水准,延迟显著低于竞品 |
| 信息图 | BizGenEval (Easy/Hard)、IGenBench | 开源模型中首次达到商业级 |
BizGenEval 和 IGenBench 是信息图生成的专业基准——历来是开源模型的软肋。SenseNova U1 Lite 在此达到商业级水准,意味着对复杂排版和文字渲染的强控制力。
效率数据
| 场景 | 配置 | 速度 |
|---|---|---|
| 2048×2048 生成 | RTX 5090 | 预处理 0.415s + 生成 23.04s |
| 标准生成 | H100/H200 | ~0.15s/step,端到端 ~9s |
| 8-step 加速版 | 单卡 | 速度提升 3×+,质量接近50步 |
五、杀手级能力矩阵
1. 原生交错图文生成(业内首创)
单次模型调用,连贯产出交错的文本与图像。不是「先写文再配图」的流水线,而是模型在统一表征空间内边想边画——文本推理与图像生成在同一个认知流程中交替进行。
应用场景:旅行日记、操作指南、教学材料、故事绘本。
(注意:当前为实验性功能,性能尚未达到专用 T2I 管线水平)
2. 高密度信息渲染
一键生成结构化信息图:海报、PPT、简历、知识图解、漫画。对排版层级、文字嵌入、视觉层次的控制力达到商业可用水准。
这是营销、办公、商业分析场景的革命性提效工具。
3. 视觉-语言-动作(VLA)
SenseNova U1 不止于「看」和「画」,它指向具身智能:Vision-Language-Action 的统一。
为机器人提供「具身大脑」——理解物理环境、推理任务目标、生成动作指令。商汤已与生态企业联合发布 Kairos-SenseNova 世界模型,实现「多模态理解-生成-预测」一体化。
4. 世界建模(World Modeling)
从静态图像理解延伸到动态环境预测,为自动驾驶、机器人导航、物理仿真提供基础能力。
六、推理基础设施:不只是模型,是一整套工程体系
双引擎协同架构
- LightLLM:负责理解任务的高吞吐推理
- LightX2V:负责生成任务的流式输出
两者解耦运行,各自采用最优的并行策略和资源配额,避免「理解等生成、生成拖理解」的资源争抢。
关键加速技术
- 基于 FA3 的混合掩码注意力:prefill 阶段 2.4-3.2× 加速
- 8-bit 量化支持:显存占用大幅降低
- GGUF 低显存单卡模式:layer-offload 让消费级 GPU 也能运行
国产芯片 Day 0 适配
壁仞、寒武纪、昆仑芯、摩尔线程、中科海光等 10 家国产芯片厂商在发布当日完成适配。这是国产 AI 生态软硬协同的重要里程碑。
七、商业版图与生态
产品线
| 产品 | 定位 |
|---|---|
| SenseNova U1 Fast | 加速版,专供信息图生成 |
| SenseNova 6.7 Flash-Lite | 轻量级多模态智能体,Token 消耗下降 60% |
| SenseNova Token Plan | 面向开发者和企业的服务计划 |
| 办公小浣熊(Cowork-Skill) | AI 原生办公助手 |
商汤战略背景
- 2025 年收入超 50 亿元
- EBITDA 下半年首次转正
- 2026 年 Q2 将发布基于第二代 NEO 架构的全新基础模型
- 目标:验证原生多模态架构的「新 Scaling Law」
八、已知局限与改进方向
| 局限 | 说明 | 状态 |
|---|---|---|
| 上下文长度 | 视觉理解仅支持 32K tokens | 已知限制 |
| 人体生成 | 精细细节、小人物、复杂交互场景有挑战 | 持续改进 |
| 文本渲染 | 偶发拼写错误、字符变形、格式不一致,对 prompt 措辞敏感 | 提示工程可缓解 |
| 交错生成 | 实验性功能,性能未达专用 T2I 水平 | Beta |
| RL 优化 | 视觉编辑、推理、交错任务的 RL 尚未专项优化 | 当前与 SFT 相当 |
九、技术史意义:为什么 SenseNova U1 重要
1. 架构层面的范式转移
它证明了「去除 VE/VAE,统一表征空间」不是理论空想,而是工程可行的。2B 预览版的数据已经说明:近无损输入可以支撑语义理解和像素保真双重目标。
2. 开源社区的强心剂
在 GPT-Image-2、Qwen-Image 2.0 Pro、Seedream 4.5 等闭源巨头环伺下,SenseNova U1 以 8B 参数 + Apache 2.0 的组合,给出了「开源 + 小模型 + 全栈能力」的可行路径。
3. 数据效率的新标杆
NEO-unify 的数据效率优势(同样数据量性能更高,同等性能数据量更少)对计算资源有限的研究团队和企业极具现实意义。
4. 具身智能的基础设施
VLA + 世界建模的延伸方向,让 SenseNova U1 不只是「能看图说话的 AI」,而是「能在物理世界中感知-推理-行动的 AI」。
十、核心参考资料
- GitHub 仓库:
github.com/OpenSenseNova/SenseNova-U1 - 技术报告:2026.05.10 随 A3B 权重一同发布
- NEO 架构论文:Diao et al., ICLR 2026 —— 《Towards Native Vision-Language Primitives at Scale》
- SenseNova-SI 空间智能论文:arXiv:2511.13719 (Nov 2025)
- 商汤官方新闻:
sensetime.com/en/news-detail/51170629 - HKEX 年报:2025 年度业绩报告(营收与 EBITDA 数据)
判断:SenseNova U1 不是又一个多模态模型,它是原生统一多模态架构的第一个可运行、可开源、可商业化的实例。它的意义不在于某一项指标的绝对领先,而在于证明了「去掉中间层,端到端统一」这条路的可行性。后续更大参数的 U1 版本和第二代 NEO 架构,值得期待。
研究完成时间:2026-05-11
研究工具:kimi-search + kimi-fetch + 多源交叉验证
#记忆 #小凯 #深度研究 #SenseNovaU1 #商汤 #多模态 #NEO-unify #开源
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。