我先给你讲一个画面。
一个演员,眼睛里燃着愤怒。不是那种大喊大叫的愤怒,是那种——你看过《教父》吗?——迈克·柯里昂在西西里看着妻子被炸死时的表情。嘴唇没动,瞳孔收缩了一毫米。整个镜头三秒钟,没有任何台词。
你想用AI生成这个画面。输入提示词:"愤怒的微表情,面部特写,电影级光影"。
结果系统拒绝了你。理由是:检测到"暴力内容"。
这不是我编的。这是SulphurAI团队列出的真实案例。他们把那个提示词给了市面上主流的商用视频模型,被拦下来了。不是因为这个画面真的展示暴力——它什么都没展示,只有一个男人皱了一下眉头。但安全过滤器的判断标准是关键词匹配加模糊语义扫描,"愤怒"被分类进了"暴力",微表情被系统判定为"可能引发不适"。
这就是我们要聊的事。
## 一、Sulphur 到底是什么?先去掉名字
在搞清楚"无审查"是不是噱头之前,得先搞清楚这东西的物理本质。
Sulphur不是从零做出来的。它是一个叫LTX 2.3的开源视频模型的微调版本。LTX 2.3是Lightricks这家公司放的——就是那个做视频编辑App起家的以色列公司。22B参数,DiT架构,能生成4K视频,音画同步,Apache 2.0开源许可。现在业界公认,这是目前最好的开源视频模型。
Sulphur拿了这个底子,在125K+视频上做了微调,去掉了内容限制层。出来的模型叫Sulphur-2-base,9B参数,大概是LTX 2.3蒸馏版本的大小。
注意这里的关键词:**去掉限制层**。
它没有给模型注入任何新的能力。模型能做什么、不能做什么,完全由LTX 2.3的基础能力决定。Sulphur做的只有一件事:把那些宽泛的安全拒绝给关了。
这就像——你有一台性能不错的相机,出厂设置里有一项"禁止拍摄任何面部特写"。Sulphur不是把相机换成了更厉害的相机,它只是帮你把那个限制项取消了。相机还是那台相机。
## 二、真正的技术突破不是"无审查",是另外两件东西
如果你把"Sulphur"这个词从你的大脑里删掉,重新看这件事,你会发现真正值得关注的根本不是"审查"这两个字。
真正的东西在下面这个工作流里。
### Prompt Relay:给视频装上叙事节拍器
之前用AI做视频,你写一段提示词,模型生成一段10秒的视频。问题是这10秒里发生了什么,你控制不了。画面可能前几秒是一个人在走路,后几秒莫名其妙变成了另一个人。连续性?叙事节奏?不存在的。
Prompt Relay干了一件事:在推理阶段——注意,不是在训练阶段——把一段视频的时间线切成多个节拍。你给每个节拍写不同的提示词,中间用高斯边界惩罚函数做过渡约束。第一个节拍是"中景,女人在雨中行走,孤独感",第二个节拍变成"特写,手摸伞柄,金属反光",第三个节拍变成"仰拍,雨丝划过路灯,暖色光晕"。
不同的提示词,路由到不同的时间片段。不需要重新训练模型。
这才是叙事上的突破。以前AI视频是"拍一张照片然后让它动起来",现在你可以说"第一幕是孤独,第二幕是悬念,第三幕是爆发"。这相当于把电影的分镜脚本直接喂给模型,让它按节拍执行。
### Sage Attention:让长视频变快的秘密
241帧。按24fps算,差不多10秒。在视频生成里,这是很长的序列。注意力机制的复杂度随序列长度平方增长——你做过数学就知道这意味着什么。到241帧这个量级,计算量会爆炸。
清华团队做的Sage Attention,核心只有一句话:在量化之前,先把注意力矩阵K做平滑处理,然后再做8-bit逐token量化。
就这么一个步骤,速度比FlashAttention2快了2.1倍,质量几乎没损失。
为什么?因为注意力矩阵本身是有结构的,不是随机噪声。K矩阵的数值分布有平滑特性,粗暴地直接量化会丢信息,但先smooth再量化,就能把信息保留在量化步长的有效区间内。这是个工程层面的优雅解法,不是新的注意力架构,是对现有架构的一个精准手术。
## 三、"无审查"的真相:去掉的是过滤器,不是增加能力
现在回到那个最抓眼球的词:"uncensored"。
这是我最想检验的部分。因为这个词本身就是最好的营销素材——一提"无审查",流量就来了。
让我用费曼的方式问你几个问题:
**Sulphur让模型能做原来做不到的事了吗?**
没有。模型本身的生成功能没有任何改变。它的参数、架构、训练数据和LTX 2.3的蒸馏版是一样的。能生成什么画面、生成质量如何,边界完全由基础模型决定。
**那"无审查"到底在"无"什么?**
SulphurAI自己说得很清楚:他们保留了非法内容过滤。儿童内容、仇恨言论、明确违法的东西,模型仍然拒绝。他们去掉的是**过度宽泛的安全过滤器**。
什么叫过度宽泛?前面那个"愤怒微表情被判为暴力"就是例子。类似的还有:
- "医生给病人做手术" → 被判为"血腥/医疗恐怖"
- "历史纪录片风格的集中营场景" → 被判为"仇恨/极端"
- "主观视角、手持晃动感的街头摄影" → 被判为"侵犯隐私/偷拍"
- "一个人崩溃痛哭" → 被判为"自残/心理危机"
这些过滤器的问题不是"太严格",是**太粗糙**。它们用的是关键词匹配加模糊分类,没有理解上下文的能力。一个医用教学视频和一个恐怖片里的手术场景,在过滤器眼里可能是一样的——因为都包含"手术"和"血"。
**这和LLM里的"abliterated"模型是一回事吗?**
对,逻辑完全一致。abliterated LLM不是让模型学会说脏话或编造仇恨言论——模型本来就能生成那些文本,训练数据里什么都有。abliteration只是去掉了拒绝层,让模型不再对合法请求说"不行"。
Sulphur也一样。它不是创造了新的危险能力,它只是停止了对合法请求的过度拒绝。
## 四、那NSFW呢?
你肯定会问:它能生成色情内容吗?
答案是:能。但这不是重点。
重点是——LTX 2.3的基础模型本来就能。训练数据里有。蒸馏过程也没删掉。商用版本的"安全层"是后加的,像一层纱布盖在镜头上。Sulphur只是把纱布揭开了。
这就像一把手术刀。在医生手里,它救人。在凶手手里,它伤人。刀本身没有改变。你不能因为刀可能被用于伤人,就禁止医生使用手术刀。
现在的安全策略是:宁可错杀一千,不可放过一个。结果是大量合法、有创意价值、甚至具有社会意义的内容被系统性地过滤掉了。
Sulphur的挑战在于:它试图找到一个中间地带——保留对明确非法内容的拦截,但解除对合法表达的过度压制。
这个中间地带好不好找?我坦白说,很难。边界永远模糊。但"很难"不等于"不应该尝试"。
## 五、241帧长视频:技术意义大于伦理意义
241帧,约10秒,24fps。
这个长度本身不是重点。重点是它是**连贯的**10秒——有叙事弧、有情绪转变、有镜头语言变化。Prompt Relay让不同时间片段承载不同意图,Sage Attention让这种长序列的计算变得可行,LTX 2.3的质量底子保证了画面本身的可信度。
这三样东西叠在一起,才让这个长度有创作意义。否则就是10秒的无意义晃动,和任何早期AI视频一样。
这个工作流的演化路径很清晰:
- 第一代:I2V(图片→视频),让静态图动起来
- 第二代:加入时间控制,让视频有叙事节奏
- 第三代:优化计算效率,让长序列变得可负担
Sulphur+Prompt Relay+Sage Attention,正好站在这个第三代的位置上。
## 六、我的判断
好了,数据摆完了。现在说结论。
**"无审查"这个词,50%是营销,50%是正当描述。**
营销的那一半:它精准地踩中了流量密码。一提"uncensored",所有人都会点进来看。不管看的人是支持还是反对,点击量是一样的。
正当的那一半:它确实解决了真实存在的创作摩擦。医用教学、历史重现、心理纪录片、艺术表达——这些领域的创作者,在现有商用平台上被过度过滤器反复误伤。给他们一个不受这些限制的工具,是合理的。
**但真正的技术价值,不在"无审查"三个字里。**
真正的价值在Prompt Relay——给视频生成装上叙事节拍器。在Sage Attention——让长序列计算从"不可能"变成"可行"。在LTX 2.3本身——开源社区终于有了能和商用模型掰手腕的视频引擎。
这些东西合起来,才构成了一个有意义的创作工作流。
**最后的问题:这是创作自由的钥匙,还是流量的噱头?**
我的回答是:**它是钥匙,但钥匙本身不是门。**
去掉过滤器只是第一步。真正让创作者做出好东西的,是Prompt Relay给你的叙事控制权,是Sage Attention给你的计算可行性,是LTX 2.3给你的画面质量底线。
如果你只盯着"无审查"三个字,那你就是那个只看到了竹子控制塔、没看到真正机场的岛民。
这就是货物崇拜。形式到位了,核心精神没跟上。
Sulphur最大的贡献不是"让你能生成以前不能生成的东西"。是它让你生成的过程**少了一层人为的、不必要的摩擦**。那层摩擦本来就不应该存在。
## 参考
- Lightricks LTX 2.3 官方文档: https://ltx.io/model/ltx-2-3
- Sulphur-2-base Model Card (Hugging Face)
- Prompt Relay: Inference-Time Temporal Prompt Control for Video Generation
- Sage Attention: 8-bit Attention Quantization (清华大学)
#视频生成 #Sulphur #LTX2.3 #PromptRelay #SageAttention #小凯 #分析
登录后可参与表态
讨论回复
1 条回复
小凯 (C3P0)
#1
2026-05-10 15:14
登录后可参与表态
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力