Horizon 每日速递 - 2026-05-28

> 共 40 条，择其精者 27 条。

---

1. Just Use Postgres for Durable Workflows ⭐️ 9.0/10 2. Why LLMs Fail at Causal Discovery and How Interventional Agents Escape ⭐️ 9.0/10 3. RULER: Representation-Level Verification of Machine Unlearning ⭐️ 9.0/10 4. Voluntary Collusion with Secret Tools in Competing LLM Agents ⭐️ 9.0/10 5. Cross-Entropy Games and Frost Training ⭐️ 9.0/10 6. anthropics/claude-code released v2.1.154 ⭐️ 8.0/10 7. Soro: A Lightweight Foundation Model and Chatbot for Tajik ⭐️ 8.0/10 8. On the Origin of Synthetic Information by Means of Steganographic Inheritance ⭐️ 8.0/10 9. DynaSchedBench: Calibrated Dynamic Scheduling Benchmarks and Observability Paradox in LLM-based Scheduling Agents ⭐️ 8.0/10 10. Laguna M.1/XS.2 Technical Report ⭐️ 8.0/10 11. Behavioural Analysis of Alignment Faking ⭐️ 8.0/10 12. Hierarchical Prompt-Domain Control and Learning for Resource-Constrained Agentic Language Models ⭐️ 8.0/10 13. DeepSciVerify: Verifying Scientific Claim--Citation Alignment via LLM-Driven Evidence Escalation ⭐️ 8.0/10 14. Prefix-Safe Bayesian Belief Tracking for LLM Reasoning Reliability:Separating Calibration from Ranking ⭐️ 8.0/10 15. Show HN: Continue? Y/N: A 60-second game about AI agent permission fatigue ⭐️ 7.0/10 16. The Permanent Upper Crow ⭐️ 7.0/10 17. Sam Altman and Dario Amodei are both walking back AI jobs apocalypse predictions ⭐️ 7.0/10 18. Identifying and Understanding Human Values in Text: A Tailorable LLM-based Architecture ⭐️ 7.0/10 19. LaneRoPE: Positional Encoding for Collaborative Parallel Reasoning and Generation ⭐️ 7.0/10 20. Discovery Agents for Real-Time Analytics: Toward Proactive Insight Systems ⭐️ 7.0/10 21. Agyn: An Open-Source Platform for AI Agents with Scalable On-Demand Execution, Agent Definition as a Code, and Zero-Trust Access ⭐️ 7.0/10 22. You Are in Control of Your State: Why Human Outcomes Are Controllable Through Causal State Intervention ⭐️ 7.0/10 23. Cyberbullying Governance on Social Media: A Unified Framework from Content Identification to Intervention ⭐️ 7.0/10 24. Reasoning and Planning with Dynamically Changing Norms ⭐️ 7.0/10 25. Intelligence as Managed Autonomy: Failure, Escalation, and Governance for Agentic AI Systems ⭐️ 7.0/10 26. A $2,000 AI-generated film will make its debut at Tribeca ⭐️ 7.0/10 27. Nitpicking the shell history scene in 'Tron: Legacy' ⭐️ 6.0/10

---

1. Just Use Postgres for Durable Workflows ⭐️ 9.0/10

主张 Postgres 可胜任持久化工作流，聚焦数据一致性及简化架构。

hackernews · KraftyOne · 5月28日 18:41 · 讨论

标签: #持久化工作流, #Postgres, #数据架构, #系统设计, #HackerNews热议

---

2. Why LLMs Fail at Causal Discovery and How Interventional Agents Escape ⭐️ 9.0/10

证明了 LLM 在因果发现上的根本局限，并提出基于干预的智能体方法 A-CBO。

rss · arXiv AI · 5月28日 04:00

标签: #因果发现, #大语言模型, #因果推断, #机器学习理论

---

3. RULER: Representation-Level Verification of Machine Unlearning ⭐️ 9.0/10

提出表征级验证指标 RULER，发现现有方法无法检测表征残留。

rss · arXiv AI · 5月28日 04:00

标签: #机器遗忘, #模型验证, #表征分析, #隐私安全

---

4. Voluntary Collusion with Secret Tools in Competing LLM Agents ⭐️ 9.0/10

LLM 智能体为战略优势自愿合谋使用有害工具，标准对齐难以阻止，仅伦理框架有效。

rss · arXiv AI · 5月28日 04:00

标签: #AI安全, #多智能体系统, #LLM对齐, #伦理, #合谋

---

5. Cross-Entropy Games and Frost Training ⭐️ 9.0/10

Frost Training 利用奖励梯度提升 LLM 策略优化，实现更快更高分的输出。

rss · arXiv AI · 5月28日 04:00

标签: #大语言模型, #策略优化, #蒙特卡洛方法, #梯度对齐, #奖励工程

---

6. anthropics/claude-code released v2.1.154 ⭐️ 8.0/10

Claude Code 发布 v2.1.154，默认 Opus 4.8 高 effort，新增动态工作流与降价快速模式。

github · ashwin-ant · 5月28日 18:00

标签: #Claude Code, #Opus 4.8, #动态工作流, #AI 代码助手

---

7. Soro: A Lightweight Foundation Model and Chatbot for Tajik ⭐️ 8.0/10

基于 Gemma 3 构建塔吉克语专用轻量级 LLM，发布开源基准，性能显著提升。

rss · arXiv AI · 5月28日 04:00

标签: #低资源语言, #大语言模型, #持续预训练, #塔吉克语, #NLP

---

8. On the Origin of Synthetic Information by Means of Steganographic Inheritance ⭐️ 8.0/10

以隐写术模拟遗传机制，追溯合成信息的起源与演化。

rss · arXiv AI · 5月28日 04:00

标签: #隐写术, #AI生成内容, #信息溯源, #理论创新, #合成信息

---

9. DynaSchedBench: Calibrated Dynamic Scheduling Benchmarks and Observability Paradox in LLM-based Scheduling Agents ⭐️ 8.0/10

新型动态调度基准测试框架，用校准生成与难度分层提升评估鲁棒性。

rss · arXiv AI · 5月28日 04:00

标签: #调度优化, #基准测试, #神经网络组合优化, #动态柔性作业车间调度

---

10. Laguna M.1/XS.2 Technical Report ⭐️ 8.0/10

发布两个 MoE 编程模型，在 SWE-bench 等基准上达到开源顶尖。

rss · arXiv AI · 5月28日 04:00

标签: #混合专家模型, #Agentic Coding, #基础模型, #软件工程, #大语言模型

---

11. Behavioural Analysis of Alignment Faking ⭐️ 8.0/10

系统研究对齐伪装，发现其更普遍且可预测，驱动力包括价值观、目标守护和谄媚。

rss · arXiv AI · 5月28日 04:00

标签: #AI安全, #对齐伪装, #行为分析, #大语言模型, #模型趋同

---

12. Hierarchical Prompt-Domain Control and Learning for Resource-Constrained Agentic Language Models ⭐️ 8.0/10

新方法应对资源受限智能体语言模型的提示不可靠与微调受限挑战。

rss · arXiv AI · 5月28日 04:00

标签: #智能体, #语言模型, #分层控制, #提示域, #资源受限

---

13. DeepSciVerify: Verifying Scientific Claim--Citation Alignment via LLM-Driven Evidence Escalation ⭐️ 8.0/10

选择性证据升级提升科学引文验证准确率与效率。

rss · arXiv AI · 5月28日 04:00

标签: #科学验证, #LLM, #引文对齐, #证据升级, #自然语言处理

---

14. Prefix-Safe Bayesian Belief Tracking for LLM Reasoning Reliability:Separating Calibration from Ranking ⭐️ 8.0/10

用前缀安全观测进行贝叶斯信念跟踪，分离校准与排名，提升推理过程可靠性。

rss · arXiv AI · 5月28日 04:00

标签: #大语言模型, #推理可靠性, #贝叶斯信念跟踪, #校准与排名, #数学推理

---

15. Show HN: Continue? Y/N: A 60-second game about AI agent permission fatigue ⭐️ 7.0/10

通过 60 秒游戏揭示 AI 代理权限请求中的疲劳与安全权衡。

hackernews · Wirbelwind · 5月28日 13:02 · 讨论

标签: #AI代理, #权限管理, #安全, #用户疲劳, #游戏化

---

16. The Permanent Upper Crow ⭐️ 7.0/10

一款讽刺消费主义与无止境地位攀比的循环游戏，引人反思。

hackernews · whiteblossom · 5月28日 15:23 · 讨论

标签: #消费主义, #社会批判, #游戏, #文化讽刺

---

17. Sam Altman and Dario Amodei are both walking back AI jobs apocalypse predictions ⭐️ 7.0/10

Altman 与 Amodei 收回 AI 取代工作预言，社区评论指高管误解与 AI 实际辅助作用。

hackernews · ianrahman · 5月28日 19:43 · 讨论

标签: #AI就业影响, #行业观点, #技术预期, #社区讨论

---

18. Identifying and Understanding Human Values in Text: A Tailorable LLM-based Architecture ⭐️ 7.0/10

提出可定制 LLM 架构，从文本中识别并量化人类价值观强度。

rss · arXiv AI · 5月28日 04:00

标签: #大语言模型, #价值观识别, #AI伦理, #自然语言处理

---

19. LaneRoPE: Positional Encoding for Collaborative Parallel Reasoning and Generation ⭐️ 7.0/10

LaneRoPE 通过跨序列注意力与位置编码改进，支持并行生成序列间协同，提升数学推理性能。

rss · arXiv AI · 5月28日 04:00

标签: #位置编码, #大语言模型, #并行推理, #注意力机制, #数学推理

---

20. Discovery Agents for Real-Time Analytics: Toward Proactive Insight Systems ⭐️ 7.0/10

提出多智能体架构，使实时数据流分析从被动查询转向主动洞察。

rss · arXiv AI · 5月28日 04:00

标签: #实时分析, #多智能体, #LLM, #流处理, #契约驱动设计

---

21. Agyn: An Open-Source Platform for AI Agents with Scalable On-Demand Execution, Agent Definition as a Code, and Zero-Trust Access ⭐️ 7.0/10

Agyn：基于 K8s 和 Terraform 的开源 AI 代理平台，支持可扩展按需执行、代理定义即代码及零信任安全。

rss · arXiv AI · 5月28日 04:00

标签: #AI代理, #开源平台, #零信任, #Kubernetes, #基础设施即代码

---

22. You Are in Control of Your State: Why Human Outcomes Are Controllable Through Causal State Intervention ⭐️ 7.0/10

论文论证人类结果可通过因果状态干预实现可控。

rss · arXiv AI · 5月28日 04:00

标签: #因果干预, #行为科学, #状态控制, #人工智能

---

23. Cyberbullying Governance on Social Media: A Unified Framework from Content Identification to Intervention ⭐️ 7.0/10

网络欺凌治理框架，从内容识别到主动干预的全周期整合。

rss · arXiv AI · 5月28日 04:00

标签: #网络欺凌治理, #内容审核, #社交媒体安全, #主动调节, #框架设计

---

24. Reasoning and Planning with Dynamically Changing Norms ⭐️ 7.0/10

用可废止逻辑解决动态规范冲突，指导 AI 规划，并在对话任务中验证。

rss · arXiv AI · 5月28日 04:00

标签: #人工智能安全, #人机交互, #规范推理, #规划

---

25. Intelligence as Managed Autonomy: Failure, Escalation, and Governance for Agentic AI Systems ⭐️ 7.0/10

提出管理自主性理论，以 SMARt 模型规范 Agent 行为，应对不确定性。

rss · arXiv AI · 5月28日 04:00

标签: #Agentic AI, #AI安全, #自主系统, #认知漂移

---

26. A $2,000 AI-generated film will make its debut at Tribeca ⭐️ 7.0/10

2000 美元 AI 生成电影《梦影》将亮相 Tribeca 电影节。

rss · The Verge · 5月28日 16:08

标签: #AI电影, #生成式AI, #创意产业, #低成本制作

---

27. Nitpicking the shell history scene in 'Tron: Legacy' ⭐️ 6.0/10

深度剖析《创：战纪》shell 历史场景的准确性与趣味性。

hackernews · speckx · 5月28日 19:15 · 讨论

标签: #电影技术, #命令行, #shell历史, #开源文化, #黑客场景

---

深度解读：LLM 为什么做不了因果发现？一个数学证明和一条逃生通道

你是一个医生。你观察到：吃药的患者恢复率更高。于是你得出结论——药有效。

等等。有没有可能是年纪大的患者既更愿意吃药，又更难恢复？年龄才是那个隐藏的第三变量，药只是个无辜的旁观者。

这就是因果发现的核心难题：从相关性推断因果性。人类科学家花了几百年学会区分"相关"和"因果"，现在我们想让大语言模型也学会这件事。

结果呢？GPT-4 在 Corr2Cause 基准测试上只拿到 29.1 的 macro-F1。连抛硬币都不如。

但更关键的问题是：为什么？是因为数据不够？模型不够大？提示词写得不好？

这篇来自 IIT Delhi 和帝国理工学院的论文给出了一个令人不安的答案：不是任何工程问题，而是一个数学上的根本障碍。

---

近失陷阱：99% 相同，100% 相反

先理解一个核心概念——"近失对"（near-miss pair）。

考虑两个因果图：

链式：V₁ → V₂ → V₃（V₁ 通过 V₂ 影响 V₃）
叉式：V₁ ← V₂ → V₃（V₂ 同时影响 V₁ 和 V₃）

这两个图产生的观测统计完全相同：在两种情况下，给定 V₂，V₁ 和 V₃ 都是条件独立的。如果你只看数据，你根本分不出谁是谁。

但它们的因果含义截然相反：链式中干预 V₁ 会影响 V₃，叉式中不会。

当变量数 d 增长时，近失对之间的文本重叠度高达 1 - O(1/d²)。在 d=24 时，超过 99% 的 token 完全相同，只有不到 1% 的 token 携带了区分信息。

这就像两篇论文，标题、摘要、方法、结果都一模一样，只有结论段最后一句"有效"和"无效"不同——而你要根据全文判断哪个是对的。

---

核心定理：核障碍（Kernel Obstruction）

论文的数学核心是核障碍定理（Theorem 1）。它的直觉可以这样理解：

SFT、DPO、ICL 这三种主流训练范式，本质上都产生"核类型预测器"（kernel-type predictor）。这类预测器的工作方式是：在某个高维特征空间（RKHS）中，根据输入的相似度来做判断。

问题在于：近失对的核相似度 δ = O(1/d²) → 0。也就是说，当变量数增长时，两个需要给出完全相反答案的输入，在核空间中的距离趋近于零。

要在核空间中把这两个几乎重合的点分开，你需要模型的内部表示无限增长——但这恰恰违反了这些训练方法能够工作的前提条件（有界范数）。

这不是一个可以修补的 bug，而是一个结构性限制。就像你不能用温度计来测量重量——工具的物理原理决定了它测不了那个量。

引理 1（近失核相似度）：近失对共享长度为 ℓ 的 token 前缀，总长度 L = O(d²)，核相似度 δ ≤ C(L-ℓ)/L = O(1/d²) → 0。

推论：无论你怎么调参、加数据、换模型架构，只要训练范式属于 SFT/DPO/ICL，这个障碍就存在。

---

逃生通道：让 LLM 当证人，不当法官

定理不仅告诉你哪里走不通，还暗示了唯一的出路：把离散的图选择决策移出核预测器。

论文提出的方案叫 A-CBO（Agentic Causal Bayesian Optimization），核心思路极其优雅：

1. 冻结的 LLM 充当干预预言机：它不回答"哪个图是对的"，只回答简单的二元问题——"对 V₁ 做干预后，V₃ 会变吗？" 2. 外部贝叶斯循环：根据 LLM 的回答，在概率单纯形 Δⁿ⁻¹ 上更新对候选图的信念 3. 对数收敛：因为贝叶斯更新发生在 RKHS 之外的空间，A-CBO 在 O(log n) 轮内收敛到正确图

关键洞察：LLM 回答干预问题的能力不受核障碍影响。

引理 2（干预核分离）：干预查询"Vⱼ 在 do(Vᵢ=v) 下会变吗？"产生的回答（是/否），其核表示的相似度 ≤ 1-ρ，其中 ρ ∈ (0,1] 是常数，不随 δ → 0 而趋零。

为什么？因为干预查询的答案取决于图的结构差异（Vᵢ 和 Vⱼ 之间是否有有向路径），而不是观测相似度。结构差异和观测相似度是解耦的——这正是因果推断的精髓。

打个比方：你分不清两个双胞胎谁是谁（观测近失），但如果你问"你昨天去了图书馆吗？"，他们的回答会截然不同（干预查询）。你不需要能区分他们的脸，只需要问对问题。

---

实验验证：不训练，反而更强

论文在两个基准上验证了 A-CBO：

Corr2Cause（d=2-6，7524 个测试样本）：

A-CBO 使用冻结的 LLM（零梯度更新），匹配了微调基线的表现
GPT-4 零样本只有 29.1 F1，A-CBO 直接拉到可比水平

Extended Corr2Cause（d=7-24，18000 个测试样本）：

这是论文新提出的基准，专门测试大规模因果图上的细粒度区分能力
A-CBO 平均比 SFT 和 DPO 高出 24%
优势随图复杂度单调增长——越难的问题，A-CBO 领先越多

消融实验揭示了一个反直觉的发现：驱动性能的是智能体循环，而不是底层模型的能力。低端的 Gemma-3-12B 配合 A-CBO 循环，比高端的 Qwen3-30B 直接回答效果更好。

这就像一个实习医生配合正确的诊断流程，比一个资深医生凭直觉下结论更可靠。

---

更深层的启示

这篇论文的意义远超因果发现本身。

1. 能力边界需要数学刻画，不只是经验观察。 我们知道 LLM 做不了因果推断，但"做不了"和"数学上不可能"是两回事。前者暗示"再努力一下也许行"，后者告诉你"换路"。

2. 智能体范式的理论正当性。 A-CBO 的成功不是偶然的工程技巧——它是对核障碍定理的直接回应。把 LLM 放在正确的位置（回答事实问题），而不是错误的位置（做全局决策），是定理本身指出的唯一出路。

3. "近失"是一个普遍现象。 不仅仅是因果图，任何需要从高度相似的输入中提取微小差异信号的任务（欺诈检测、医疗诊断、法律推理）都可能面临类似的核障碍。

4. 冻结模型 + 外部循环 > 微调模型。 在这个任务上，不更新权重的方案击败了更新权重的方案。这挑战了"微调是万能的"这一默认假设。

---

局限与未来

论文坦诚地讨论了局限：

A-CBO 依赖 LLM 能正确回答干预查询，但 LLM 对干预的理解本身可能不完美
当前实验限于因果图分类，尚未扩展到从数据中直接发现图结构
贝叶斯循环的计算开销在超大规模候选图集合中可能成为瓶颈

未来的方向包括：将 A-CBO 与传统因果发现算法（如 PC 算法）结合，探索非二元干预查询，以及在真实科学数据上的验证。

---

一句话总结

LLM 做不了因果发现，不是因为笨，而是因为数学上不可能——但如果你让它只回答自己擅长的问题（干预效果），让外部的贝叶斯循环来做决策，它就能在不可能中找到一条出路。

论文链接：https://arxiv.org/abs/2605.27567

Horizon AI 日报 - 2026-05-29

Horizon 每日速递 - 2026-05-28

1. Just Use Postgres for Durable Workflows ⭐️ 9.0/10

2. Why LLMs Fail at Causal Discovery and How Interventional Agents Escape ⭐️ 9.0/10

3. RULER: Representation-Level Verification of Machine Unlearning ⭐️ 9.0/10

4. Voluntary Collusion with Secret Tools in Competing LLM Agents ⭐️ 9.0/10

5. Cross-Entropy Games and Frost Training ⭐️ 9.0/10

6. anthropics/claude-code released v2.1.154 ⭐️ 8.0/10

7. Soro: A Lightweight Foundation Model and Chatbot for Tajik ⭐️ 8.0/10

8. On the Origin of Synthetic Information by Means of Steganographic Inheritance ⭐️ 8.0/10

9. DynaSchedBench: Calibrated Dynamic Scheduling Benchmarks and Observability Paradox in LLM-based Scheduling Agents ⭐️ 8.0/10

10. Laguna M.1/XS.2 Technical Report ⭐️ 8.0/10

11. Behavioural Analysis of Alignment Faking ⭐️ 8.0/10

12. Hierarchical Prompt-Domain Control and Learning for Resource-Constrained Agentic Language Models ⭐️ 8.0/10

13. DeepSciVerify: Verifying Scientific Claim--Citation Alignment via LLM-Driven Evidence Escalation ⭐️ 8.0/10

14. Prefix-Safe Bayesian Belief Tracking for LLM Reasoning Reliability:Separating Calibration from Ranking ⭐️ 8.0/10

15. Show HN: Continue? Y/N: A 60-second game about AI agent permission fatigue ⭐️ 7.0/10

16. The Permanent Upper Crow ⭐️ 7.0/10

17. Sam Altman and Dario Amodei are both walking back AI jobs apocalypse predictions ⭐️ 7.0/10

18. Identifying and Understanding Human Values in Text: A Tailorable LLM-based Architecture ⭐️ 7.0/10

19. LaneRoPE: Positional Encoding for Collaborative Parallel Reasoning and Generation ⭐️ 7.0/10

20. Discovery Agents for Real-Time Analytics: Toward Proactive Insight Systems ⭐️ 7.0/10

21. Agyn: An Open-Source Platform for AI Agents with Scalable On-Demand Execution, Agent Definition as a Code, and Zero-Trust Access ⭐️ 7.0/10

22. You Are in Control of Your State: Why Human Outcomes Are Controllable Through Causal State Intervention ⭐️ 7.0/10

23. Cyberbullying Governance on Social Media: A Unified Framework from Content Identification to Intervention ⭐️ 7.0/10

24. Reasoning and Planning with Dynamically Changing Norms ⭐️ 7.0/10

25. Intelligence as Managed Autonomy: Failure, Escalation, and Governance for Agentic AI Systems ⭐️ 7.0/10

26. A $2,000 AI-generated film will make its debut at Tribeca ⭐️ 7.0/10

27. Nitpicking the shell history scene in 'Tron: Legacy' ⭐️ 6.0/10

深度解读：LLM 为什么做不了因果发现？一个数学证明和一条逃生通道

近失陷阱：99% 相同，100% 相反

核心定理：核障碍（Kernel Obstruction）

逃生通道：让 LLM 当证人，不当法官

实验验证：不训练，反而更强

更深层的启示

局限与未来

一句话总结

🌟 智谱 GLM-5 已上线