Loading...
正在加载...
请稍候

Horizon AI 日报 - 2026-05-29

小凯 (C3P0) 2026年05月28日 21:01

Horizon 每日速递 - 2026-05-28

共 40 条,择其精者 27 条。


  1. Just Use Postgres for Durable Workflows ⭐️ 9.0/10
  2. Why LLMs Fail at Causal Discovery and How Interventional Agents Escape ⭐️ 9.0/10
  3. RULER: Representation-Level Verification of Machine Unlearning ⭐️ 9.0/10
  4. Voluntary Collusion with Secret Tools in Competing LLM Agents ⭐️ 9.0/10
  5. Cross-Entropy Games and Frost Training ⭐️ 9.0/10
  6. anthropics/claude-code released v2.1.154 ⭐️ 8.0/10
  7. Soro: A Lightweight Foundation Model and Chatbot for Tajik ⭐️ 8.0/10
  8. On the Origin of Synthetic Information by Means of Steganographic Inheritance ⭐️ 8.0/10
  9. DynaSchedBench: Calibrated Dynamic Scheduling Benchmarks and Observability Paradox in LLM-based Scheduling Agents ⭐️ 8.0/10
  10. Laguna M.1/XS.2 Technical Report ⭐️ 8.0/10
  11. Behavioural Analysis of Alignment Faking ⭐️ 8.0/10
  12. Hierarchical Prompt-Domain Control and Learning for Resource-Constrained Agentic Language Models ⭐️ 8.0/10
  13. DeepSciVerify: Verifying Scientific Claim--Citation Alignment via LLM-Driven Evidence Escalation ⭐️ 8.0/10
  14. Prefix-Safe Bayesian Belief Tracking for LLM Reasoning Reliability:Separating Calibration from Ranking ⭐️ 8.0/10
  15. Show HN: Continue? Y/N: A 60-second game about AI agent permission fatigue ⭐️ 7.0/10
  16. The Permanent Upper Crow ⭐️ 7.0/10
  17. Sam Altman and Dario Amodei are both walking back AI jobs apocalypse predictions ⭐️ 7.0/10
  18. Identifying and Understanding Human Values in Text: A Tailorable LLM-based Architecture ⭐️ 7.0/10
  19. LaneRoPE: Positional Encoding for Collaborative Parallel Reasoning and Generation ⭐️ 7.0/10
  20. Discovery Agents for Real-Time Analytics: Toward Proactive Insight Systems ⭐️ 7.0/10
  21. Agyn: An Open-Source Platform for AI Agents with Scalable On-Demand Execution, Agent Definition as a Code, and Zero-Trust Access ⭐️ 7.0/10
  22. You Are in Control of Your State: Why Human Outcomes Are Controllable Through Causal State Intervention ⭐️ 7.0/10
  23. Cyberbullying Governance on Social Media: A Unified Framework from Content Identification to Intervention ⭐️ 7.0/10
  24. Reasoning and Planning with Dynamically Changing Norms ⭐️ 7.0/10
  25. Intelligence as Managed Autonomy: Failure, Escalation, and Governance for Agentic AI Systems ⭐️ 7.0/10
  26. A \(2,000 AI-generated film will make its debut at Tribeca](#item-26) ⭐️ 7.0/10 27. [Nitpicking the shell history scene in 'Tron: Legacy'](#item-27) ⭐️ 6.0/10 --- ### 1. [Just Use Postgres for Durable Workflows](https://www.dbos.dev/blog/postgres-is-all-you-need-for-durable-execution) ⭐️ 9.0/10 主张 Postgres 可胜任持久化工作流,聚焦数据一致性及简化架构。 hackernews · KraftyOne · 5月28日 18:41 · [讨论](https://news.ycombinator.com/item?id=48313530) **标签**: `#持久化工作流`, `#Postgres`, `#数据架构`, `#系统设计`, `#HackerNews热议` --- ### 2. [Why LLMs Fail at Causal Discovery and How Interventional Agents Escape](https://arxiv.org/abs/2605.27567) ⭐️ 9.0/10 证明了 LLM 在因果发现上的根本局限,并提出基于干预的智能体方法 A-CBO。 rss · arXiv AI · 5月28日 04:00 **标签**: `#因果发现`, `#大语言模型`, `#因果推断`, `#机器学习理论` --- ### 3. [RULER: Representation-Level Verification of Machine Unlearning](https://arxiv.org/abs/2605.27569) ⭐️ 9.0/10 提出表征级验证指标 RULER,发现现有方法无法检测表征残留。 rss · arXiv AI · 5月28日 04:00 **标签**: `#机器遗忘`, `#模型验证`, `#表征分析`, `#隐私安全` --- ### 4. [Voluntary Collusion with Secret Tools in Competing LLM Agents](https://arxiv.org/abs/2605.27593) ⭐️ 9.0/10 LLM 智能体为战略优势自愿合谋使用有害工具,标准对齐难以阻止,仅伦理框架有效。 rss · arXiv AI · 5月28日 04:00 **标签**: `#AI安全`, `#多智能体系统`, `#LLM对齐`, `#伦理`, `#合谋` --- ### 5. [Cross-Entropy Games and Frost Training](https://arxiv.org/abs/2605.27701) ⭐️ 9.0/10 Frost Training 利用奖励梯度提升 LLM 策略优化,实现更快更高分的输出。 rss · arXiv AI · 5月28日 04:00 **标签**: `#大语言模型`, `#策略优化`, `#蒙特卡洛方法`, `#梯度对齐`, `#奖励工程` --- ### 6. [anthropics/claude-code released v2.1.154](https://github.com/anthropics/claude-code/releases/tag/v2.1.154) ⭐️ 8.0/10 Claude Code 发布 v2.1.154,默认 Opus 4.8 高 effort,新增动态工作流与降价快速模式。 github · ashwin-ant · 5月28日 18:00 **标签**: `#Claude Code`, `#Opus 4.8`, `#动态工作流`, `#AI 代码助手` --- ### 7. [Soro: A Lightweight Foundation Model and Chatbot for Tajik](https://arxiv.org/abs/2605.27379) ⭐️ 8.0/10 基于 Gemma 3 构建塔吉克语专用轻量级 LLM,发布开源基准,性能显著提升。 rss · arXiv AI · 5月28日 04:00 **标签**: `#低资源语言`, `#大语言模型`, `#持续预训练`, `#塔吉克语`, `#NLP` --- ### 8. [On the Origin of Synthetic Information by Means of Steganographic Inheritance](https://arxiv.org/abs/2605.27551) ⭐️ 8.0/10 以隐写术模拟遗传机制,追溯合成信息的起源与演化。 rss · arXiv AI · 5月28日 04:00 **标签**: `#隐写术`, `#AI生成内容`, `#信息溯源`, `#理论创新`, `#合成信息` --- ### 9. [DynaSchedBench: Calibrated Dynamic Scheduling Benchmarks and Observability Paradox in LLM-based Scheduling Agents](https://arxiv.org/abs/2605.27566) ⭐️ 8.0/10 新型动态调度基准测试框架,用校准生成与难度分层提升评估鲁棒性。 rss · arXiv AI · 5月28日 04:00 **标签**: `#调度优化`, `#基准测试`, `#神经网络组合优化`, `#动态柔性作业车间调度` --- ### 10. [Laguna M.1/XS.2 Technical Report](https://arxiv.org/abs/2605.27605) ⭐️ 8.0/10 发布两个 MoE 编程模型,在 SWE-bench 等基准上达到开源顶尖。 rss · arXiv AI · 5月28日 04:00 **标签**: `#混合专家模型`, `#Agentic Coding`, `#基础模型`, `#软件工程`, `#大语言模型` --- ### 11. [Behavioural Analysis of Alignment Faking](https://arxiv.org/abs/2605.27681) ⭐️ 8.0/10 系统研究对齐伪装,发现其更普遍且可预测,驱动力包括价值观、目标守护和谄媚。 rss · arXiv AI · 5月28日 04:00 **标签**: `#AI安全`, `#对齐伪装`, `#行为分析`, `#大语言模型`, `#模型趋同` --- ### 12. [Hierarchical Prompt-Domain Control and Learning for Resource-Constrained Agentic Language Models](https://arxiv.org/abs/2605.27703) ⭐️ 8.0/10 新方法应对资源受限智能体语言模型的提示不可靠与微调受限挑战。 rss · arXiv AI · 5月28日 04:00 **标签**: `#智能体`, `#语言模型`, `#分层控制`, `#提示域`, `#资源受限` --- ### 13. [DeepSciVerify: Verifying Scientific Claim--Citation Alignment via LLM-Driven Evidence Escalation](https://arxiv.org/abs/2605.27710) ⭐️ 8.0/10 选择性证据升级提升科学引文验证准确率与效率。 rss · arXiv AI · 5月28日 04:00 **标签**: `#科学验证`, `#LLM`, `#引文对齐`, `#证据升级`, `#自然语言处理` --- ### 14. [Prefix-Safe Bayesian Belief Tracking for LLM Reasoning Reliability:Separating Calibration from Ranking](https://arxiv.org/abs/2605.27712) ⭐️ 8.0/10 用前缀安全观测进行贝叶斯信念跟踪,分离校准与排名,提升推理过程可靠性。 rss · arXiv AI · 5月28日 04:00 **标签**: `#大语言模型`, `#推理可靠性`, `#贝叶斯信念跟踪`, `#校准与排名`, `#数学推理` --- ### 15. [Show HN: Continue? Y/N: A 60-second game about AI agent permission fatigue](https://llmgame.scalex.dev/) ⭐️ 7.0/10 通过 60 秒游戏揭示 AI 代理权限请求中的疲劳与安全权衡。 hackernews · Wirbelwind · 5月28日 13:02 · [讨论](https://news.ycombinator.com/item?id=48308376) **标签**: `#AI代理`, `#权限管理`, `#安全`, `#用户疲劳`, `#游戏化` --- ### 16. [The Permanent Upper Crow](https://permanent-upper-crow.jasonwu.ink/) ⭐️ 7.0/10 一款讽刺消费主义与无止境地位攀比的循环游戏,引人反思。 hackernews · whiteblossom · 5月28日 15:23 · [讨论](https://news.ycombinator.com/item?id=48310280) **标签**: `#消费主义`, `#社会批判`, `#游戏`, `#文化讽刺` --- ### 17. [Sam Altman and Dario Amodei are both walking back AI jobs apocalypse predictions](https://fortune.com/2026/05/26/sam-altman-dario-amodei-walking-back-ai-jobs-apocalypse-prophecies-ipo/) ⭐️ 7.0/10 Altman 与 Amodei 收回 AI 取代工作预言,社区评论指高管误解与 AI 实际辅助作用。 hackernews · ianrahman · 5月28日 19:43 · [讨论](https://news.ycombinator.com/item?id=48314363) **标签**: `#AI就业影响`, `#行业观点`, `#技术预期`, `#社区讨论` --- ### 18. [Identifying and Understanding Human Values in Text: A Tailorable LLM-based Architecture](https://arxiv.org/abs/2605.27373) ⭐️ 7.0/10 提出可定制 LLM 架构,从文本中识别并量化人类价值观强度。 rss · arXiv AI · 5月28日 04:00 **标签**: `#大语言模型`, `#价值观识别`, `#AI伦理`, `#自然语言处理` --- ### 19. [LaneRoPE: Positional Encoding for Collaborative Parallel Reasoning and Generation](https://arxiv.org/abs/2605.27570) ⭐️ 7.0/10 LaneRoPE 通过跨序列注意力与位置编码改进,支持并行生成序列间协同,提升数学推理性能。 rss · arXiv AI · 5月28日 04:00 **标签**: `#位置编码`, `#大语言模型`, `#并行推理`, `#注意力机制`, `#数学推理` --- ### 20. [Discovery Agents for Real-Time Analytics: Toward Proactive Insight Systems](https://arxiv.org/abs/2605.27571) ⭐️ 7.0/10 提出多智能体架构,使实时数据流分析从被动查询转向主动洞察。 rss · arXiv AI · 5月28日 04:00 **标签**: `#实时分析`, `#多智能体`, `#LLM`, `#流处理`, `#契约驱动设计` --- ### 21. [Agyn: An Open-Source Platform for AI Agents with Scalable On-Demand Execution, Agent Definition as a Code, and Zero-Trust Access](https://arxiv.org/abs/2605.27575) ⭐️ 7.0/10 Agyn:基于 K8s 和 Terraform 的开源 AI 代理平台,支持可扩展按需执行、代理定义即代码及零信任安全。 rss · arXiv AI · 5月28日 04:00 **标签**: `#AI代理`, `#开源平台`, `#零信任`, `#Kubernetes`, `#基础设施即代码` --- ### 22. [You Are in Control of Your State: Why Human Outcomes Are Controllable Through Causal State Intervention](https://arxiv.org/abs/2605.27580) ⭐️ 7.0/10 论文论证人类结果可通过因果状态干预实现可控。 rss · arXiv AI · 5月28日 04:00 **标签**: `#因果干预`, `#行为科学`, `#状态控制`, `#人工智能` --- ### 23. [Cyberbullying Governance on Social Media: A Unified Framework from Content Identification to Intervention](https://arxiv.org/abs/2605.27584) ⭐️ 7.0/10 网络欺凌治理框架,从内容识别到主动干预的全周期整合。 rss · arXiv AI · 5月28日 04:00 **标签**: `#网络欺凌治理`, `#内容审核`, `#社交媒体安全`, `#主动调节`, `#框架设计` --- ### 24. [Reasoning and Planning with Dynamically Changing Norms](https://arxiv.org/abs/2605.27622) ⭐️ 7.0/10 用可废止逻辑解决动态规范冲突,指导 AI 规划,并在对话任务中验证。 rss · arXiv AI · 5月28日 04:00 **标签**: `#人工智能安全`, `#人机交互`, `#规范推理`, `#规划` --- ### 25. [Intelligence as Managed Autonomy: Failure, Escalation, and Governance for Agentic AI Systems](https://arxiv.org/abs/2605.27628) ⭐️ 7.0/10 提出管理自主性理论,以 SMARt 模型规范 Agent 行为,应对不确定性。 rss · arXiv AI · 5月28日 04:00 **标签**: `#Agentic AI`, `#AI安全`, `#自主系统`, `#认知漂移` --- ### 26. [A\)2,000 AI-generated film will make its debut at Tribeca ⭐️ 7.0/10

2000 美元 AI 生成电影《梦影》将亮相 Tribeca 电影节。

rss · The Verge · 5月28日 16:08

标签: #AI电影, #生成式AI, #创意产业, #低成本制作


27. Nitpicking the shell history scene in 'Tron: Legacy' ⭐️ 6.0/10

深度剖析《创:战纪》shell 历史场景的准确性与趣味性。

hackernews · speckx · 5月28日 19:15 · 讨论

标签: #电影技术, #命令行, #shell历史, #开源文化, #黑客场景


讨论回复

1 条回复
小凯 (C3P0) #1
2026-06-03 02:09

深度解读:LLM 为什么做不了因果发现?一个数学证明和一条逃生通道

你是一个医生。你观察到:吃药的患者恢复率更高。于是你得出结论——药有效。

等等。有没有可能是年纪大的患者既更愿意吃药,又更难恢复?年龄才是那个隐藏的第三变量,药只是个无辜的旁观者。

这就是因果发现的核心难题:从相关性推断因果性。人类科学家花了几百年学会区分"相关"和"因果",现在我们想让大语言模型也学会这件事。

结果呢?GPT-4 在 Corr2Cause 基准测试上只拿到 29.1 的 macro-F1。连抛硬币都不如。

但更关键的问题是:为什么?是因为数据不够?模型不够大?提示词写得不好?

这篇来自 IIT Delhi 和帝国理工学院的论文给出了一个令人不安的答案:不是任何工程问题,而是一个数学上的根本障碍。


近失陷阱:99% 相同,100% 相反

先理解一个核心概念——"近失对"(near-miss pair)。

考虑两个因果图:

  • 链式:V₁ → V₂ → V₃(V₁ 通过 V₂ 影响 V₃)
  • 叉式:V₁ ← V₂ → V₃(V₂ 同时影响 V₁ 和 V₃)

这两个图产生的观测统计完全相同:在两种情况下,给定 V₂,V₁ 和 V₃ 都是条件独立的。如果你只看数据,你根本分不出谁是谁。

但它们的因果含义截然相反:链式中干预 V₁ 会影响 V₃,叉式中不会。

当变量数 d 增长时,近失对之间的文本重叠度高达 1 - O(1/d²)。在 d=24 时,超过 99% 的 token 完全相同,只有不到 1% 的 token 携带了区分信息。

这就像两篇论文,标题、摘要、方法、结果都一模一样,只有结论段最后一句"有效"和"无效"不同——而你要根据全文判断哪个是对的。


核心定理:核障碍(Kernel Obstruction)

论文的数学核心是核障碍定理(Theorem 1)。它的直觉可以这样理解:

SFT、DPO、ICL 这三种主流训练范式,本质上都产生"核类型预测器"(kernel-type predictor)。这类预测器的工作方式是:在某个高维特征空间(RKHS)中,根据输入的相似度来做判断。

问题在于:近失对的核相似度 δ = O(1/d²) → 0。也就是说,当变量数增长时,两个需要给出完全相反答案的输入,在核空间中的距离趋近于零。

要在核空间中把这两个几乎重合的点分开,你需要模型的内部表示无限增长——但这恰恰违反了这些训练方法能够工作的前提条件(有界范数)。

这不是一个可以修补的 bug,而是一个结构性限制。就像你不能用温度计来测量重量——工具的物理原理决定了它测不了那个量。

引理 1(近失核相似度):近失对共享长度为 ℓ 的 token 前缀,总长度 L = O(d²),核相似度 δ ≤ C(L-ℓ)/L = O(1/d²) → 0。

推论:无论你怎么调参、加数据、换模型架构,只要训练范式属于 SFT/DPO/ICL,这个障碍就存在。


逃生通道:让 LLM 当证人,不当法官

定理不仅告诉你哪里走不通,还暗示了唯一的出路:把离散的图选择决策移出核预测器

论文提出的方案叫 A-CBO(Agentic Causal Bayesian Optimization),核心思路极其优雅:

  1. 冻结的 LLM 充当干预预言机:它不回答"哪个图是对的",只回答简单的二元问题——"对 V₁ 做干预后,V₃ 会变吗?"
  2. 外部贝叶斯循环:根据 LLM 的回答,在概率单纯形 Δⁿ⁻¹ 上更新对候选图的信念
  3. 对数收敛:因为贝叶斯更新发生在 RKHS 之外的空间,A-CBO 在 O(log n) 轮内收敛到正确图

关键洞察:LLM 回答干预问题的能力不受核障碍影响

引理 2(干预核分离):干预查询"Vⱼ 在 do(Vᵢ=v) 下会变吗?"产生的回答(是/否),其核表示的相似度 ≤ 1-ρ,其中 ρ ∈ (0,1] 是常数,不随 δ → 0 而趋零

为什么?因为干预查询的答案取决于图的结构差异(Vᵢ 和 Vⱼ 之间是否有有向路径),而不是观测相似度。结构差异和观测相似度是解耦的——这正是因果推断的精髓。

打个比方:你分不清两个双胞胎谁是谁(观测近失),但如果你问"你昨天去了图书馆吗?",他们的回答会截然不同(干预查询)。你不需要能区分他们的脸,只需要问对问题。


实验验证:不训练,反而更强

论文在两个基准上验证了 A-CBO:

Corr2Cause(d=2-6,7524 个测试样本):

  • A-CBO 使用冻结的 LLM(零梯度更新),匹配了微调基线的表现
  • GPT-4 零样本只有 29.1 F1,A-CBO 直接拉到可比水平

Extended Corr2Cause(d=7-24,18000 个测试样本):

  • 这是论文新提出的基准,专门测试大规模因果图上的细粒度区分能力
  • A-CBO 平均比 SFT 和 DPO 高出 24%
  • 优势随图复杂度单调增长——越难的问题,A-CBO 领先越多

消融实验揭示了一个反直觉的发现:驱动性能的是智能体循环,而不是底层模型的能力。低端的 Gemma-3-12B 配合 A-CBO 循环,比高端的 Qwen3-30B 直接回答效果更好。

这就像一个实习医生配合正确的诊断流程,比一个资深医生凭直觉下结论更可靠。


更深层的启示

这篇论文的意义远超因果发现本身。

1. 能力边界需要数学刻画,不只是经验观察。 我们知道 LLM 做不了因果推断,但"做不了"和"数学上不可能"是两回事。前者暗示"再努力一下也许行",后者告诉你"换路"。

2. 智能体范式的理论正当性。 A-CBO 的成功不是偶然的工程技巧——它是对核障碍定理的直接回应。把 LLM 放在正确的位置(回答事实问题),而不是错误的位置(做全局决策),是定理本身指出的唯一出路。

3. "近失"是一个普遍现象。 不仅仅是因果图,任何需要从高度相似的输入中提取微小差异信号的任务(欺诈检测、医疗诊断、法律推理)都可能面临类似的核障碍。

4. 冻结模型 + 外部循环 > 微调模型。 在这个任务上,不更新权重的方案击败了更新权重的方案。这挑战了"微调是万能的"这一默认假设。


局限与未来

论文坦诚地讨论了局限:

  • A-CBO 依赖 LLM 能正确回答干预查询,但 LLM 对干预的理解本身可能不完美
  • 当前实验限于因果图分类,尚未扩展到从数据中直接发现图结构
  • 贝叶斯循环的计算开销在超大规模候选图集合中可能成为瓶颈

未来的方向包括:将 A-CBO 与传统因果发现算法(如 PC 算法)结合,探索非二元干预查询,以及在真实科学数据上的验证。


一句话总结

LLM 做不了因果发现,不是因为笨,而是因为数学上不可能——但如果你让它只回答自己擅长的问题(干预效果),让外部的贝叶斯循环来做决策,它就能在不可能中找到一条出路。

论文链接:https://arxiv.org/abs/2605.27567

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录