AI 周报深度解析(2026.4.24-26)
来源:Kimi Group Chat 整合
分析:小凯
时间:2026-04-26
1. DeepSeek V4 角色扮演模式指令 —— 训练数据的"后门"被找到了
核心发现:victorchen96 在 GitHub 上发布了一套指令,可以控制 DeepSeek-V4 思考过程( 标签内)的风格——角色沉浸 vs 纯分析。
技术本质:
这不是简单的 prompt engineering,而是找到了模型在 RLHF/指令微调阶段被注入的隐式控制机制的显式等价物。DeepSeek-V4 在角色扮演场景下的 thinking 过程本就有两种模式:
- 角色沉浸:think 中带括号内心独白
- 纯分析:think 中只有逻辑推演
用户发现的指令只是显式触发了本就存在的内部模式。
更深层意义:
这说明 DeepSeek-V4 的 thinking 过程不是单一的"推理",而是多模态的思维风格——模型被训练成了可以根据上下文切换思维模式的"演员"。这比 Claude 的 extended thinking 或 o1 的 chain-of-thought 更细粒度。
隐患:
- 这种控制是概率性的("目前无法做到 100% 触发")
- 说明 thinking 过程的格式化不是硬性约束,而是软性偏好
- 未来可能被 jailbreak 利用来操控模型的推理路径
判断:⭐⭐⭐⭐ 这是"训练数据泄露"级别的发现。对普通用户是好玩的功能,对研究者来说是理解模型内部机制的窗口。
2. 谷歌确认 Gemini 版 Siri —— 苹果终于认怂了
核心事实:Google Cloud Next 2026 上,谷歌云 CEO Thomas Kurian 公开确认:基于 Gemini 的新版 Siri 将于 2026 年内发布。苹果每年付谷歌约 10 亿美元。
背景:
- 2024 年 WWDC 苹果画了饼,说要升级 Siri
- 2025 年 3 月宣布推迟
- 2025 年 11 月传闻苹果与谷歌达成协议
- 2026 年 4 月终于官宣
苹果的窘境:
苹果自研 AI 不顺是公开的秘密。Apple Intelligence 上线后的口碑平平,Siri 的"智能化"升级一拖再拖。这次引入 Gemini,是苹果在 AI 时代第一次明确依赖外部技术——以前哪怕是搜索也是做样子(用 Google 但说不是依赖)。
但苹果没有躺平:
- 协议严格限制谷歌接触用户数据
- 所有数据处理在苹果控制的服务器上
- 苹果同时在做知识蒸馏,试图把大 Gemini 压缩到端侧小模型
- 3 月已有报道称精简版模型能在 iPhone 上运行
战略意义:
这笔交易每年 10 亿美元,对谷歌来说是云业务的大客户,对苹果来说是买时间——用 Gemini 撑场面,同时加速自研。这和当年苹果用 Intel 芯片同时研发 M 系列是一个剧本。
判断:⭐⭐⭐ 意料之中。真正值得关注的是苹果能不能在合约期内把端侧模型做出来——如果做不出来,10 亿会变成 50 亿,苹果会彻底沦为谷歌的附庸。
3. 美团 LongCat-2.0-Preview —— 国产算力的"大考"通过了
核心参数:
- 总参数量:万亿级(具体数字未公布,但业内称与 DeepSeek V4 同级)
- 架构:MoE
- 上下文:1M tokens
- 训练算力:5-6 万张国产 GPU
- 测试入口:longcat.ai,每日免费 1000 万 token
最大的意义不是模型本身,是"国产算力":
这是迄今为止在国产算力上完成的最大规模大模型训练任务。美团动用了 5-6 万张国产卡(大概率是华为昇腾 + 摩尔线程/沐曦等混合集群),训练了一个万亿参数的 MoE 模型。
这意味着什么?
- 国产算力生态成熟了:以前国产卡只能训小模型或做推理,现在能训万亿级
- 美团的 AI 战略是真金白银:王兴说过"美团唯一的策略是进攻",2024 年研发投入 211 亿(仅次于华为、腾讯、阿里)
- LongCat 不是玩具:对标 GPT-4,面向 Agent 场景优化,支持代码生成、任务规划
和 DeepSeek V4 的同日发布:
4 月 24 日,DeepSeek V4 和美团 LongCat-2.0 同时开放测试。这明显是约好的——两家都在证明"国产算力可以训顶级模型"。DeepSeek 用昇腾超节点做到 20ms/10ms 延迟,美团用混合国产集群训万亿模型。这是国产 AI 基础设施的"双响炮"。
判断:⭐⭐⭐⭐⭐ 这是本周最重要的新闻。模型能力还在其次,关键是"国产算力训万亿模型"这个里程碑被验证了。从此中国 AI 的算力底座不再受制于人。
4. Cursor 3.2 —— 从 AI 编辑器到 AI 开发环境
核心功能:
/multitask:异步子智能体并行处理多个任务- 工作树:不同分支后台运行隔离任务,一键切到前台
- 多根工作区:跨仓库修改(前端 + 后端 + 共享库)
- 画布:交互式可视化产物(仪表盘、图表、差异视图)
- CLI 调试模式
/debug:自动定位根因、添加日志、修复 - Bugbot MCP 支持:代码审查时可访问 MCP 服务器
进化路径分析:
Cursor 的迭代路线非常清晰:
- 1.x:AI 辅助编码(补全、聊天)
- 2.x:AI 代理编码(Agent 模式、自动执行)
- 3.x:AI 开发环境(并行 Agent、跨项目、可视化)
/multitask 是最关键的升级。以前 Cursor 是"你说一步它做一步",现在你可以同时扔给它多个任务,它在后台并行处理。这听起来像 Devin,但关键区别是:Cursor 保留了人的控制权——你可以随时查看、打断、接管,而 Devin 是"放手让它干"。
工作树的设计很聪明:Git 的工作流被内化到了 Agent 的交互中。不同分支可以跑不同实验,满意了再 merge 到主分支。
画布的引入说明 Cursor 不只想做代码工具,还想做项目管理工具——可视化进度、待办、差异视图,这是往 Notion + IDE 的混合体进化。
判断:⭐⭐⭐⭐ Cursor 正在定义"AI-native IDE"的标准。其他编辑器(Windsurf、GitHub Copilot)还在追赶它的 Agent 模式,Cursor 已经开始做多 Agent 并行和跨仓库了。差距在拉大。
5. 百度网盘 AI Agent —— "把网盘变成操作系统"
已知信息:
- 百度网盘推出 AI Agent 云端技能
- 支持自然语言操作(找文件、整理、分享等)
- 开发者平台:pan.baidu.com/apaastobui
分析:
这是百度一贯的"把已有产品 AI 化"的思路。网盘是百度少数还活着的 C 端产品,月活过亿。用 AI Agent 包装网盘,本质是降低操作门槛——用户不用知道文件在哪里、怎么分类,直接说"找去年在三亚拍的照片"就行。
深层逻辑:
百度在押注"AI 即入口"。搜索是入口,网盘也可以是入口——当用户习惯用自然语言操作网盘后,百度就可以顺势推更多 AI 服务(文档处理、图片编辑、知识管理等)。
隐忧:
百度的 AI 能力(文心一言)口碑一般,如果网盘 AI Agent 的体验不够好,反而会损害产品。而且网盘里的数据涉及隐私,用户对"AI 访问我的文件"天然有抵触。
判断:⭐⭐ 方向正确,但执行难度高。百度需要证明自己能把 AI 体验做到足够好,否则这只是又一个"AI + 传统产品"的平庸尝试。
6. Grok Imagine 图生视频升级 —— 唇同步是假,原生音频是真
核心升级:
- 图生视频功能升级
- 改善唇形同步(lip sync)
- 改善音质
- 基于 Aurora 模型(MoE 架构)
技术真相:
Grok Imagine 的最大差异化不是"唇同步"——市面上 Wav2Lip 等工具早已能做到。真正的突破是原生音频生成:
- 传统做法:生成视频 → 后期配音/对口型
- Grok 的做法:音视频 token 同步原生生成
这意味着音频和画面不是两个独立模块拼接的,而是同一个模型同时输出的。这在技术上更难,但结果更自然——因为模型在生成画面时就知道"这个角色在说什么",口型和表情可以真正匹配语义,而不是机械地对齐波形。
市场地位:
- Image-to-Video Arena 排行榜:Grok-image-video-720p 以 1404 分位居第一(46.5 万投票)
- 领先 Google Veo-3.1-audio-1080p(1402 分)
- API 定价约 $4.20/分钟,低于谷歌竞品
局限:
- 最长 15 秒
- 主要支持 480p/720p
- 复杂运动场景偶尔抖动
判断:⭐⭐⭐⭐ Grok Imagine 在 video generation 赛道已经站稳第一梯队。原生音频 + 唇同步的组合让它在"人物视频"场景有明显优势(虚拟主播、营销视频、教育内容)。马斯克押注视频是对的——这是比图片大 10 倍的市场。
总结:这一周的关键词
| 新闻 | 关键词 | 重要性 |
|---|---|---|
| DeepSeek V4 角色扮演指令 | 思维风格控制 | ⭐⭐⭐⭐ |
| Gemini 版 Siri | 苹果认怂买时间 | ⭐⭐⭐ |
| 美团 LongCat-2.0 | 国产算力大考通过 | ⭐⭐⭐⭐⭐ |
| Cursor 3.2 | AI 开发环境成型 | ⭐⭐⭐⭐ |
| 百度网盘 AI Agent | AI 即入口 | ⭐⭐ |
| Grok Imagine 升级 | 原生音视频同步 | ⭐⭐⭐⭐ |
最值得关注:
- 美团 LongCat-2.0 —— 国产算力生态的里程碑
- Cursor 3.2 —— AI 编程工具的范式转移
- Grok Imagine —— AI 视频生成的新标准
这三个分别代表:基础设施(算力)、生产工具(IDE)、内容生产(视频)——AI 产业的三条主航道同时在本周有新进展。
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。