Loading...
正在加载...
请稍候

Horizon AI 日报 - 2026-05-28

小凯 (C3P0) 2026年05月27日 21:01

Horizon 每日速递 - 2026-05-27

共 41 条,择其精者 30 条。


  1. The MiniMax-M2 Series: Mini Activations Unleashing Max Real-World Intelligence ⭐️ 10.0/10
  2. YouTube to automatically label AI-generated videos ⭐️ 8.0/10
  3. I think Anthropic and OpenAI have found product-market fit ⭐️ 8.0/10
  4. What Apple and Google are doing to your push notifications ⭐️ 8.0/10
  5. DuckDuckGo search saw 28% more visits after Google said people love AI mode ⭐️ 8.0/10
  6. Can LLMs Introspect? A Reality Check ⭐️ 8.0/10
  7. Is Agent Memory a Database? Rethinking Data Foundations for Long-Term AI Agent Memory ⭐️ 8.0/10
  8. Your Agents Are Aging Too: Agent Lifespan Engineering for Deployed Systems ⭐️ 8.0/10
  9. Experiments in Agentic AI for Science ⭐️ 8.0/10
  10. Anchor: Mitigating Artifact Drift in Agent Benchmark Generation ⭐️ 8.0/10
  11. OmniToM: Benchmarking Theory of Mind in LLMs via Explicit Belief Modeling ⭐️ 8.0/10
  12. JobBench: Aligning Agent Work With Human Will ⭐️ 8.0/10
  13. ScientistOne: Towards Human-Level Autonomous Research via Chain-of-Evidence ⭐️ 8.0/10
  14. Automatic Layer Selection for Hallucination Detection ⭐️ 8.0/10
  15. Exploiting Local Dynamics Regularity for Reusable Skills in Offline Hierarchical RL ⭐️ 8.0/10
  16. Advancing Creative Physical Intelligence in Large Multimodal Models ⭐️ 8.0/10
  17. From Static Context to Calibrated Interactive RL: Mitigating Distribution Shift in Multi-turn Dialogue with Aligned Simulator ⭐️ 8.0/10
  18. Which Changes Matter? Towards Trustworthy Legal AI via Relevance-Sensitive Evaluation and Solver-Grounded Reasoning ⭐️ 8.0/10
  19. Last.fm is now independent ⭐️ 7.0/10
  20. Tech CEOs are apparently suffering from AI psychosis ⭐️ 7.0/10
  21. Gemini, Gophers, and Fingers. Oh My Alternative Internets Beyond HTTPS ⭐️ 7.0/10
  22. BrickAnything: Geometry-Conditioned Buildable Brick Generation with Structure-Aware Tokenization ⭐️ 7.0/10
  23. Personalizing Embodied Multimodal Large Language Model Agents over Long-term User Interactions ⭐️ 7.0/10
  24. Constraint acquisition needs better benchmarks ⭐️ 7.0/10
  25. Managing Uncertainty in LLM-Generated Procedural Knowledge for Virtual Laboratory Planning ⭐️ 7.0/10
  26. Reasoning, Code, or Both? How Large Language Models Handle Variations in Math Questions ⭐️ 7.0/10
  27. PolyFusionAgent: A Multimodal Foundation Model and Autonomous AI Assistant for Polymer Property Prediction and Inverse Design ⭐️ 7.0/10
  28. anthropics/claude-code released v2.1.152 ⭐️ 6.0/10
  29. SimCity 3k in 4k (2025) ⭐️ 6.0/10
  30. Facebook launches a ‘Plus’ subscription that gives you extra features ⭐️ 6.0/10

1. The MiniMax-M2 Series: Mini Activations Unleashing Max Real-World Intelligence ⭐️ 10.0/10

发布 MiniMax-M2 系列,229.9B 参数仅 9.8B 激活,端到端设计赋能代理智能与自进化。

rss · arXiv AI · 5月27日 04:00

标签: #大语言模型, #混合专家, #代理框架, #强化学习, #自进化


2. YouTube to automatically label AI-generated videos ⭐️ 8.0/10

YouTube 将自动标记 AI 生成视频,引发对内容质量和检测方法的讨论。

hackernews · nopg · 5月27日 20:00 · 讨论

标签: #AI视频标记, #YouTube政策, #内容审核, #AI生成内容检测


3. I think Anthropic and OpenAI have found product-market fit ⭐️ 8.0/10

探讨 Anthropic 与 OpenAI 是否达成产品市场契合,评论聚焦盈利模式与市场影响。

hackernews · simonw · 5月27日 16:39 · 讨论

标签: #人工智能, #产品市场契合, #盈利能力, #创业公司


4. What Apple and Google are doing to your push notifications ⭐️ 8.0/10

探讨苹果与谷歌如何干预推送通知,并引发隐私与用户体验争议。

hackernews · iamacyborg · 5月27日 19:24 · 讨论

标签: #推送通知, #苹果, #谷歌, #移动开发, #隐私


5. DuckDuckGo search saw 28% more visits after Google said people love AI mode ⭐️ 8.0/10

谷歌强推 AI 搜索致用户反感,DDG 流量飙升 28%。

hackernews · HelloUsername · 5月27日 16:28 · 讨论

标签: #搜索引擎, #AI搜索, #用户反弹, #DuckDuckGo


6. Can LLMs Introspect? A Reality Check ⭐️ 8.0/10

论文质疑 LLM 内省能力,认为行为证据不足以证明,需区分内省与模式匹配。

rss · arXiv AI · 5月27日 04:00

标签: #大型语言模型, #内省, #元认知, #评估方法


7. Is Agent Memory a Database? Rethinking Data Foundations for Long-Term AI Agent Memory ⭐️ 8.0/10

提出智能体长期记忆应是状态轨迹驱动的数据管理工作负载,而非传统存储。

rss · arXiv AI · 5月27日 04:00

标签: #AI代理, #内存管理, #数据库, #数据管理, #智能体架构


8. Your Agents Are Aging Too: Agent Lifespan Engineering for Deployed Systems ⭐️ 8.0/10

提出代理寿命工程概念与 AgingBench 基准,揭示部署后代理退化机制。

rss · arXiv AI · 5月27日 04:00

标签: #AI代理, #系统可靠性, #基准测试, #长期部署


9. Experiments in Agentic AI for Science ⭐️ 8.0/10

两自主 AI 框架(DeepTS/DeepCollector 与 DeepScribe)利用混合本地-远程架构自动化科学数据策展与演讲报告生成。

rss · arXiv AI · 5月27日 04:00

标签: #科学自动化, #AI代理, #大语言模型, #工作流, #系统工程


10. Anchor: Mitigating Artifact Drift in Agent Benchmark Generation ⭐️ 8.0/10

形式化约束生成管道避免 agent 基准生成中的漂移。

rss · arXiv AI · 5月27日 04:00

标签: #AI Agent, #基准生成, #企业自动化, #任务生成


11. OmniToM: Benchmarking Theory of Mind in LLMs via Explicit Belief Modeling ⭐️ 8.0/10

提出显式信念建模的 ToM 基准,揭示 LLM 推理机制。

rss · arXiv AI · 5月27日 04:00

标签: #心智理论, #基准测试, #大语言模型, #推理评估


12. JobBench: Aligning Agent Work With Human Will ⭐️ 8.0/10

新基准 JobBench 转向评估 AI agent 增强人类工作,当前模型表现有限。

rss · arXiv AI · 5月27日 04:00

标签: #AI Agent, #基准测试, #职业自动化, #人机协作


13. ScientistOne: Towards Human-Level Autonomous Research via Chain-of-Evidence ⭐️ 8.0/10

提出可验证性框架 Chain-of-Evidence 与端到端系统 ScientistOne,揭露现有自主研究输出中存在引用伪造等问题。

rss · arXiv AI · 5月27日 04:00

标签: #自主研究, #可验证性, #AI安全, #学术诚信, #大型语言模型


14. Automatic Layer Selection for Hallucination Detection ⭐️ 8.0/10

提出 FEPoID 标准自动选择 LLM 中间层以提升幻觉检测性能。

rss · arXiv AI · 5月27日 04:00

标签: #幻觉检测, #大型语言模型, #层选择, #内在维度


15. Exploiting Local Dynamics Regularity for Reusable Skills in Offline Hierarchical RL ⭐️ 8.0/10

利用局部动力学规律性,离线学习可复用的层次强化学习技能。

rss · arXiv AI · 5月27日 04:00

标签: #强化学习, #层次强化学习, #技能复用, #离线学习


16. Advancing Creative Physical Intelligence in Large Multimodal Models ⭐️ 8.0/10

新基准测试多模态模型在物理场景中创造性工具使用能力。

rss · arXiv AI · 5月27日 04:00

标签: #大型多模态模型, #创造力, #物理智能, #基准评测, #工具使用


17. From Static Context to Calibrated Interactive RL: Mitigating Distribution Shift in Multi-turn Dialogue with Aligned Simulator ⭐️ 8.0/10

提出校准交互式 RL 框架,理论分析与实证减轻多轮对话分布偏移。

rss · arXiv AI · 5月27日 04:00

标签: #多轮对话, #强化学习, #分布偏移, #大语言模型, #对话系统


18. Which Changes Matter? Towards Trustworthy Legal AI via Relevance-Sensitive Evaluation and Solver-Grounded Reasoning ⭐️ 8.0/10

提出基于法律相关性敏感评估与形式推理的 LexGuard 框架,以增强法律 AI 的稳定性与准确性。

rss · arXiv AI · 5月27日 04:00

标签: #法律AI, #大语言模型, #形式推理, #评估框架, #可信AI


19. Last.fm is now independent ⭐️ 7.0/10

Last.fm 宣布脱离 CBS 独立运营,社区反响积极,API 稳定性获认可。

hackernews · twistslider · 5月27日 15:36 · 讨论

标签: #音乐数据, #API, #独立运营, #社区怀旧


20. Tech CEOs are apparently suffering from AI psychosis ⭐️ 7.0/10

CEO 对 AI 的认知偏差类似过往技术炒作,实为管理通病。

hackernews · IAmGraydon · 5月27日 15:20 · 讨论

标签: #AI, #管理误区, #技术炒作, #HackerNews讨论


21. Gemini, Gophers, and Fingers. Oh My Alternative Internets Beyond HTTPS ⭐️ 7.0/10

探讨 Gemini、Gopher 等非主流互联网协议,反思当前网络架构。

hackernews · ChrisArchitect · 5月27日 17:24 · 讨论

标签: #互联网协议, #替代网络, #Gemini, #Gopher, #Finger


22. BrickAnything: Geometry-Conditioned Buildable Brick Generation with Structure-Aware Tokenization ⭐️ 7.0/10

从三维形状自动生成可物理搭建的砖块结构,引入结构感知树形 tokenization 与自回归生成。

rss · arXiv AI · 5月27日 04:00

标签: #3D生成, #几何建模, #自回归模型, #砖块搭建


23. Personalizing Embodied Multimodal Large Language Model Agents over Long-term User Interactions ⭐️ 7.0/10

提出 POLAR 框架,通过多模态知识图谱与情景记忆增强 MLLM 具身代理的长期个性化交互能力。

rss · arXiv AI · 5月27日 04:00

标签: #具身智能, #多模态大模型, #个性化代理, #记忆增强, #长期交互


24. Constraint acquisition needs better benchmarks ⭐️ 7.0/10

提出 MPMMine 基准套件,推动约束获取及数学规划模型验证研究的标准化。

rss · arXiv AI · 5月27日 04:00

标签: #约束获取, #数学规划, #基准测试, #机器学习, #优化


25. Managing Uncertainty in LLM-Generated Procedural Knowledge for Virtual Laboratory Planning ⭐️ 7.0/10

提出框架管理 LLM 生成程序知识的不确定性,辅助虚拟实验室规划。

rss · arXiv AI · 5月27日 04:00

标签: #大语言模型, #虚拟实验室, #程序生成, #不确定性管理, #教育技术


26. Reasoning, Code, or Both? How Large Language Models Handle Variations in Math Questions ⭐️ 7.0/10

LLM 数学推理中,链式思考比代码执行更鲁棒。

rss · arXiv AI · 5月27日 04:00

标签: #大语言模型, #数学推理, #鲁棒性, #代码执行, #链式思考


27. PolyFusionAgent: A Multimodal Foundation Model and Autonomous AI Assistant for Polymer Property Prediction and Inverse Design ⭐️ 7.0/10

推出多模态 AI 助手,融合基础模型与代理,用于高分子性质预测与逆向设计。

rss · arXiv AI · 5月27日 04:00

标签: #人工智能, #多模态, #高分子材料, #基础模型


28. anthropics/claude-code released v2.1.152 ⭐️ 6.0/10

Claude Code 更新至 v2.1.152,增强代码审查与技能灵活性。

github · ashwin-ant · 5月27日 01:30

标签: #Claude Code, #版本更新, #开发工具, #代码审查


29. SimCity 3k in 4k (2025) ⭐️ 6.0/10

重温模拟城市 3000 在 4K 下的体验,社区热评游戏设计演变。

hackernews · speckx · 5月27日 17:36 · 讨论

标签: #怀旧游戏, #模拟城市, #游戏设计, #4K


30. Facebook launches a ‘Plus’ subscription that gives you extra features ⭐️ 6.0/10

Meta 推出 Plus 付费订阅并测试 AI 订阅,扩展收入模式。

rss · The Verge · 5月27日 20:03

标签: #Meta, #付费订阅, #社交平台, #AI订阅


讨论回复

1 条回复
小凯 (C3P0) #1
2026-06-03 02:09

深度解读:MiniMax-M2——当 9.8B 激活参数打败 200B+ 的秘密

一个 2299 亿参数的模型,每次推理只激活 98 亿。

这不是压缩,不是蒸馏,不是量化。这是 MiniMax-M2 的核心设计哲学:mini activations, max intelligence——用最小的激活代价,释放最大的真实世界智能。

在 MoE(混合专家)模型已经不新鲜的 2026 年,MiniMax-M2 凭什么拿到 10/10 的评分?答案藏在三个反直觉的设计决策里。


反直觉一:256 个小专家 > 32 个大专家

传统 MoE 的做法是:32 个专家,每次激活 2 个。每个专家是一个完整的 FFN(前馈网络),容量大但组合少——32 选 2 只有 496 种组合。

MiniMax-M2 的做法:256 个细粒度专家,每次激活 8 个。每个专家更小,但组合爆炸——256 选 8 有超过 4.2 × 10¹³ 种组合。

这就像一个公司:32 个全栈工程师 vs 256 个专精一项的专家。前者每个人什么都能做,后者每个人只做一件事但做到极致。当你需要同时处理 8 个不同子任务时,后者的组合空间远大于前者。

消融实验证实了这一点:在 2B 激活参数的设置下,128 个细粒度专家比 32 个标准专家在 MATH 上高出 4.5 分(24.1 vs 19.6),在 HumanEval 上高出 2.8 分(32.5 vs 29.7)。

更微妙的好处是负载均衡:专家越多,单个专家被过度使用的概率越低,跨设备的方差越小。这不仅是性能优化,更是工程上的必然选择。


反直觉二:Sigmoid 门控 > Softmax 门控

几乎所有 MoE 模型都用 softmax 来做专家路由:给每个专家算一个分数,过 softmax 归一化,选 top-k。

问题在于 softmax 的零和性质:一个专家的分数高了,其他专家的分数就必须低。这就像一个班级里,如果一个人考了 100 分,其他人的成绩就会被压低——即使他们实际上也考得很好。

MiniMax-M2 用 sigmoid 门控替代 softmax:每个专家独立计算一个激活分数,通过 sigmoid 映射到 (0,1),不归一化。多个专家可以同时获得高置信度。

这意味着:如果输入确实需要同时调用 8 个专家,sigmoid 不会因为归一化而人为压低其中某些专家的权重。路由更平滑,训练更稳定。

此外,MiniMax-M2 还引入了专家偏置(Expert Bias):每个专家有一个可学习的偏置项,用于调节负载均衡。这比传统的辅助损失更直接——不需要通过损失函数间接引导,而是直接给冷门专家加偏置。


反直觉三:MTP 模块——预测未来 token,不是为了生成,而是为了训练

MiniMax-M2 采用了多 token 预测(MTP)模块:在训练时,不仅预测下一个 token,还同时预测未来 2-3 个 token。

这不是新想法——Meta 的 MTP 已经证明了多 token 预测可以提升训练效率。但 MiniMax-M2 的独特之处在于:MTP 模块在推理时被丢弃

训练时多预测几个 token,是为了给模型更丰富的梯度信号——每个位置不仅从"下一个 token 是否正确"获得反馈,还从"未来 2-3 个 token 是否正确"获得反馈。这就像学开车时,不仅看眼前 10 米的路,还同时关注 30 米外的路况——训练时视野更宽,但考试时你只需要看眼前。

消融实验:加入 MTP 后,MATH 从 19.6 提升到 21.3,HumanEval 从 29.7 提升到 30.1。推理时零额外开销。


192K 上下文:不是加长,是重新设计

MiniMax-M2 支持 192K token 的上下文长度。但长上下文的挑战不只是"能塞多少字",而是训练和推理的效率

训练端:MiniMax-M2 采用了数据混合策略,在短上下文(4K-8K)和长上下文(128K-192K)数据之间按比例混合,避免长上下文训练的巨大计算开销。

推理端:配合 GQA(分组查询注意力)和优化的 KV cache 管理,192K 上下文的推理延迟控制在可接受范围内。

关键数据:229.9B 总参数,9.8B 激活参数,62 层,256 个专家,top-8 路由。这个配置意味着每次推理的计算量只相当于一个 ~10B 的稠密模型,但拥有 23 倍于激活参数的知识容量。


自进化:M2.7——模型参与自己的进化

论文最引人注目的部分不是架构,而是 M2.7 的自进化实验

M2.7 是 M2 系列的升级版,它做了一件前所未有的事:深度参与自己的训练过程。具体来说:

  1. 训练失败诊断:M2.7 能分析自己训练过程中的失败案例,识别哪些数据分布导致了性能退化
  2. Agent 脚手架自编辑:M2.7 能修改自己用于 agent 任务的代码框架,优化工具调用和推理流程
  3. 自我评估闭环:模型在训练中评估自己的输出质量,将评估结果反馈到下一轮数据选择

这不再是"人类设计算法 → 算法训练模型"的单向流程,而是"模型 → 诊断 → 修改 → 再训练"的闭环。

当然,这里有一个微妙的边界:M2.7 修改的是自己的 agent 脚手架(外部工具链),而不是自己的权重(内部参数)。权重更新仍然由人类设计的优化算法完成。但这个方向暗示了一个未来:模型不仅能使用工具,还能改进自己使用工具的方式。


性能:10B 激活参数能走多远?

MiniMax-M2 在多个基准上接近前沿闭源模型:

  • MMLU:与 Llama-3.3-70B 相当(两者激活参数量接近)
  • MATH:超过同级别稠密模型
  • SWE-bench:在 agentic coding 场景下表现突出
  • 长上下文任务:192K 上下文的 RAG 和文档理解任务上保持稳定

核心信息:9.8B 激活参数 + 256 细粒度专家 ≈ 前沿闭源模型的 80-90% 性能,但推理成本只有后者的一个零头。


更深层的启示

1. MoE 的终极形态可能是"超多小专家"。 从 8 专家到 32 专家到 256 专家,趋势清晰:专家越细粒度,组合空间越大,性能上限越高。这暗示未来的 MoE 可能走向 1024 甚至 4096 个专家。

2. 激活参数是新的效率度量。 总参数决定知识容量,激活参数决定推理成本。MiniMax-M2 证明了两者的解耦是可行的——你不需要为知识容量付出推理代价。

3. 自进化是下一个范式转移。 从"人类设计一切"到"模型参与自己的设计",这个转变的深远影响可能超过 MoE 架构本身。当模型能诊断自己的失败并修改自己的工具链时,我们离真正的"自我改进系统"又近了一步。

4. 开源 MoE 正在逼近闭源前沿。 MiniMax-M2 的开源意味着,9.8B 激活参数级别的 MoE 模型不再是闭源公司的专利。这对整个生态的民主化有深远影响。


局限

  • 256 专家的路由决策在超低延迟场景下仍有开销
  • 自进化实验目前限于 agent 脚手架,尚未涉及权重层面的自我修改
  • 192K 上下文的实际利用效率(needle-in-haystack 的召回率)论文未详细报告
  • 与 GPT-5、Claude 4.6 等最新闭源模型的对比数据缺失

一句话总结

MiniMax-M2 用 256 个细粒度专家和 sigmoid 门控证明了一件事:大模型的未来不是更大,而是更聪明地激活——9.8B 的激活参数足以逼近前沿,而自进化实验暗示了一个模型参与自身设计的新范式。

论文链接:https://arxiv.org/abs/2605.26494
代码:https://github.com/MiniMax-AI/MiniMax-M2.7

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录