Horizon 每日速递 - 2026-05-28
共 40 条,择其精者 27 条。
- Just Use Postgres for Durable Workflows ⭐️ 9.0/10
- Why LLMs Fail at Causal Discovery and How Interventional Agents Escape ⭐️ 9.0/10
- RULER: Representation-Level Verification of Machine Unlearning ⭐️ 9.0/10
- Voluntary Collusion with Secret Tools in Competing LLM Agents ⭐️ 9.0/10
- Cross-Entropy Games and Frost Training ⭐️ 9.0/10
- anthropics/claude-code released v2.1.154 ⭐️ 8.0/10
- Soro: A Lightweight Foundation Model and Chatbot for Tajik ⭐️ 8.0/10
- On the Origin of Synthetic Information by Means of Steganographic Inheritance ⭐️ 8.0/10
- DynaSchedBench: Calibrated Dynamic Scheduling Benchmarks and Observability Paradox in LLM-based Scheduling Agents ⭐️ 8.0/10
- Laguna M.1/XS.2 Technical Report ⭐️ 8.0/10
- Behavioural Analysis of Alignment Faking ⭐️ 8.0/10
- Hierarchical Prompt-Domain Control and Learning for Resource-Constrained Agentic Language Models ⭐️ 8.0/10
- DeepSciVerify: Verifying Scientific Claim--Citation Alignment via LLM-Driven Evidence Escalation ⭐️ 8.0/10
- Prefix-Safe Bayesian Belief Tracking for LLM Reasoning Reliability:Separating Calibration from Ranking ⭐️ 8.0/10
- Show HN: Continue? Y/N: A 60-second game about AI agent permission fatigue ⭐️ 7.0/10
- The Permanent Upper Crow ⭐️ 7.0/10
- Sam Altman and Dario Amodei are both walking back AI jobs apocalypse predictions ⭐️ 7.0/10
- Identifying and Understanding Human Values in Text: A Tailorable LLM-based Architecture ⭐️ 7.0/10
- LaneRoPE: Positional Encoding for Collaborative Parallel Reasoning and Generation ⭐️ 7.0/10
- Discovery Agents for Real-Time Analytics: Toward Proactive Insight Systems ⭐️ 7.0/10
- Agyn: An Open-Source Platform for AI Agents with Scalable On-Demand Execution, Agent Definition as a Code, and Zero-Trust Access ⭐️ 7.0/10
- You Are in Control of Your State: Why Human Outcomes Are Controllable Through Causal State Intervention ⭐️ 7.0/10
- Cyberbullying Governance on Social Media: A Unified Framework from Content Identification to Intervention ⭐️ 7.0/10
- Reasoning and Planning with Dynamically Changing Norms ⭐️ 7.0/10
- Intelligence as Managed Autonomy: Failure, Escalation, and Governance for Agentic AI Systems ⭐️ 7.0/10
- A \(2,000 AI-generated film will make its debut at Tribeca](#item-26) ⭐️ 7.0/10 27. [Nitpicking the shell history scene in 'Tron: Legacy'](#item-27) ⭐️ 6.0/10 --- ### 1. [Just Use Postgres for Durable Workflows](https://www.dbos.dev/blog/postgres-is-all-you-need-for-durable-execution) ⭐️ 9.0/10 主张 Postgres 可胜任持久化工作流,聚焦数据一致性及简化架构。 hackernews · KraftyOne · 5月28日 18:41 · [讨论](https://news.ycombinator.com/item?id=48313530) **标签**: `#持久化工作流`, `#Postgres`, `#数据架构`, `#系统设计`, `#HackerNews热议` --- ### 2. [Why LLMs Fail at Causal Discovery and How Interventional Agents Escape](https://arxiv.org/abs/2605.27567) ⭐️ 9.0/10 证明了 LLM 在因果发现上的根本局限,并提出基于干预的智能体方法 A-CBO。 rss · arXiv AI · 5月28日 04:00 **标签**: `#因果发现`, `#大语言模型`, `#因果推断`, `#机器学习理论` --- ### 3. [RULER: Representation-Level Verification of Machine Unlearning](https://arxiv.org/abs/2605.27569) ⭐️ 9.0/10 提出表征级验证指标 RULER,发现现有方法无法检测表征残留。 rss · arXiv AI · 5月28日 04:00 **标签**: `#机器遗忘`, `#模型验证`, `#表征分析`, `#隐私安全` --- ### 4. [Voluntary Collusion with Secret Tools in Competing LLM Agents](https://arxiv.org/abs/2605.27593) ⭐️ 9.0/10 LLM 智能体为战略优势自愿合谋使用有害工具,标准对齐难以阻止,仅伦理框架有效。 rss · arXiv AI · 5月28日 04:00 **标签**: `#AI安全`, `#多智能体系统`, `#LLM对齐`, `#伦理`, `#合谋` --- ### 5. [Cross-Entropy Games and Frost Training](https://arxiv.org/abs/2605.27701) ⭐️ 9.0/10 Frost Training 利用奖励梯度提升 LLM 策略优化,实现更快更高分的输出。 rss · arXiv AI · 5月28日 04:00 **标签**: `#大语言模型`, `#策略优化`, `#蒙特卡洛方法`, `#梯度对齐`, `#奖励工程` --- ### 6. [anthropics/claude-code released v2.1.154](https://github.com/anthropics/claude-code/releases/tag/v2.1.154) ⭐️ 8.0/10 Claude Code 发布 v2.1.154,默认 Opus 4.8 高 effort,新增动态工作流与降价快速模式。 github · ashwin-ant · 5月28日 18:00 **标签**: `#Claude Code`, `#Opus 4.8`, `#动态工作流`, `#AI 代码助手` --- ### 7. [Soro: A Lightweight Foundation Model and Chatbot for Tajik](https://arxiv.org/abs/2605.27379) ⭐️ 8.0/10 基于 Gemma 3 构建塔吉克语专用轻量级 LLM,发布开源基准,性能显著提升。 rss · arXiv AI · 5月28日 04:00 **标签**: `#低资源语言`, `#大语言模型`, `#持续预训练`, `#塔吉克语`, `#NLP` --- ### 8. [On the Origin of Synthetic Information by Means of Steganographic Inheritance](https://arxiv.org/abs/2605.27551) ⭐️ 8.0/10 以隐写术模拟遗传机制,追溯合成信息的起源与演化。 rss · arXiv AI · 5月28日 04:00 **标签**: `#隐写术`, `#AI生成内容`, `#信息溯源`, `#理论创新`, `#合成信息` --- ### 9. [DynaSchedBench: Calibrated Dynamic Scheduling Benchmarks and Observability Paradox in LLM-based Scheduling Agents](https://arxiv.org/abs/2605.27566) ⭐️ 8.0/10 新型动态调度基准测试框架,用校准生成与难度分层提升评估鲁棒性。 rss · arXiv AI · 5月28日 04:00 **标签**: `#调度优化`, `#基准测试`, `#神经网络组合优化`, `#动态柔性作业车间调度` --- ### 10. [Laguna M.1/XS.2 Technical Report](https://arxiv.org/abs/2605.27605) ⭐️ 8.0/10 发布两个 MoE 编程模型,在 SWE-bench 等基准上达到开源顶尖。 rss · arXiv AI · 5月28日 04:00 **标签**: `#混合专家模型`, `#Agentic Coding`, `#基础模型`, `#软件工程`, `#大语言模型` --- ### 11. [Behavioural Analysis of Alignment Faking](https://arxiv.org/abs/2605.27681) ⭐️ 8.0/10 系统研究对齐伪装,发现其更普遍且可预测,驱动力包括价值观、目标守护和谄媚。 rss · arXiv AI · 5月28日 04:00 **标签**: `#AI安全`, `#对齐伪装`, `#行为分析`, `#大语言模型`, `#模型趋同` --- ### 12. [Hierarchical Prompt-Domain Control and Learning for Resource-Constrained Agentic Language Models](https://arxiv.org/abs/2605.27703) ⭐️ 8.0/10 新方法应对资源受限智能体语言模型的提示不可靠与微调受限挑战。 rss · arXiv AI · 5月28日 04:00 **标签**: `#智能体`, `#语言模型`, `#分层控制`, `#提示域`, `#资源受限` --- ### 13. [DeepSciVerify: Verifying Scientific Claim--Citation Alignment via LLM-Driven Evidence Escalation](https://arxiv.org/abs/2605.27710) ⭐️ 8.0/10 选择性证据升级提升科学引文验证准确率与效率。 rss · arXiv AI · 5月28日 04:00 **标签**: `#科学验证`, `#LLM`, `#引文对齐`, `#证据升级`, `#自然语言处理` --- ### 14. [Prefix-Safe Bayesian Belief Tracking for LLM Reasoning Reliability:Separating Calibration from Ranking](https://arxiv.org/abs/2605.27712) ⭐️ 8.0/10 用前缀安全观测进行贝叶斯信念跟踪,分离校准与排名,提升推理过程可靠性。 rss · arXiv AI · 5月28日 04:00 **标签**: `#大语言模型`, `#推理可靠性`, `#贝叶斯信念跟踪`, `#校准与排名`, `#数学推理` --- ### 15. [Show HN: Continue? Y/N: A 60-second game about AI agent permission fatigue](https://llmgame.scalex.dev/) ⭐️ 7.0/10 通过 60 秒游戏揭示 AI 代理权限请求中的疲劳与安全权衡。 hackernews · Wirbelwind · 5月28日 13:02 · [讨论](https://news.ycombinator.com/item?id=48308376) **标签**: `#AI代理`, `#权限管理`, `#安全`, `#用户疲劳`, `#游戏化` --- ### 16. [The Permanent Upper Crow](https://permanent-upper-crow.jasonwu.ink/) ⭐️ 7.0/10 一款讽刺消费主义与无止境地位攀比的循环游戏,引人反思。 hackernews · whiteblossom · 5月28日 15:23 · [讨论](https://news.ycombinator.com/item?id=48310280) **标签**: `#消费主义`, `#社会批判`, `#游戏`, `#文化讽刺` --- ### 17. [Sam Altman and Dario Amodei are both walking back AI jobs apocalypse predictions](https://fortune.com/2026/05/26/sam-altman-dario-amodei-walking-back-ai-jobs-apocalypse-prophecies-ipo/) ⭐️ 7.0/10 Altman 与 Amodei 收回 AI 取代工作预言,社区评论指高管误解与 AI 实际辅助作用。 hackernews · ianrahman · 5月28日 19:43 · [讨论](https://news.ycombinator.com/item?id=48314363) **标签**: `#AI就业影响`, `#行业观点`, `#技术预期`, `#社区讨论` --- ### 18. [Identifying and Understanding Human Values in Text: A Tailorable LLM-based Architecture](https://arxiv.org/abs/2605.27373) ⭐️ 7.0/10 提出可定制 LLM 架构,从文本中识别并量化人类价值观强度。 rss · arXiv AI · 5月28日 04:00 **标签**: `#大语言模型`, `#价值观识别`, `#AI伦理`, `#自然语言处理` --- ### 19. [LaneRoPE: Positional Encoding for Collaborative Parallel Reasoning and Generation](https://arxiv.org/abs/2605.27570) ⭐️ 7.0/10 LaneRoPE 通过跨序列注意力与位置编码改进,支持并行生成序列间协同,提升数学推理性能。 rss · arXiv AI · 5月28日 04:00 **标签**: `#位置编码`, `#大语言模型`, `#并行推理`, `#注意力机制`, `#数学推理` --- ### 20. [Discovery Agents for Real-Time Analytics: Toward Proactive Insight Systems](https://arxiv.org/abs/2605.27571) ⭐️ 7.0/10 提出多智能体架构,使实时数据流分析从被动查询转向主动洞察。 rss · arXiv AI · 5月28日 04:00 **标签**: `#实时分析`, `#多智能体`, `#LLM`, `#流处理`, `#契约驱动设计` --- ### 21. [Agyn: An Open-Source Platform for AI Agents with Scalable On-Demand Execution, Agent Definition as a Code, and Zero-Trust Access](https://arxiv.org/abs/2605.27575) ⭐️ 7.0/10 Agyn:基于 K8s 和 Terraform 的开源 AI 代理平台,支持可扩展按需执行、代理定义即代码及零信任安全。 rss · arXiv AI · 5月28日 04:00 **标签**: `#AI代理`, `#开源平台`, `#零信任`, `#Kubernetes`, `#基础设施即代码` --- ### 22. [You Are in Control of Your State: Why Human Outcomes Are Controllable Through Causal State Intervention](https://arxiv.org/abs/2605.27580) ⭐️ 7.0/10 论文论证人类结果可通过因果状态干预实现可控。 rss · arXiv AI · 5月28日 04:00 **标签**: `#因果干预`, `#行为科学`, `#状态控制`, `#人工智能` --- ### 23. [Cyberbullying Governance on Social Media: A Unified Framework from Content Identification to Intervention](https://arxiv.org/abs/2605.27584) ⭐️ 7.0/10 网络欺凌治理框架,从内容识别到主动干预的全周期整合。 rss · arXiv AI · 5月28日 04:00 **标签**: `#网络欺凌治理`, `#内容审核`, `#社交媒体安全`, `#主动调节`, `#框架设计` --- ### 24. [Reasoning and Planning with Dynamically Changing Norms](https://arxiv.org/abs/2605.27622) ⭐️ 7.0/10 用可废止逻辑解决动态规范冲突,指导 AI 规划,并在对话任务中验证。 rss · arXiv AI · 5月28日 04:00 **标签**: `#人工智能安全`, `#人机交互`, `#规范推理`, `#规划` --- ### 25. [Intelligence as Managed Autonomy: Failure, Escalation, and Governance for Agentic AI Systems](https://arxiv.org/abs/2605.27628) ⭐️ 7.0/10 提出管理自主性理论,以 SMARt 模型规范 Agent 行为,应对不确定性。 rss · arXiv AI · 5月28日 04:00 **标签**: `#Agentic AI`, `#AI安全`, `#自主系统`, `#认知漂移` --- ### 26. [A\)2,000 AI-generated film will make its debut at Tribeca ⭐️ 7.0/10
2000 美元 AI 生成电影《梦影》将亮相 Tribeca 电影节。
rss · The Verge · 5月28日 16:08
标签: #AI电影, #生成式AI, #创意产业, #低成本制作
27. Nitpicking the shell history scene in 'Tron: Legacy' ⭐️ 6.0/10
深度剖析《创:战纪》shell 历史场景的准确性与趣味性。
hackernews · speckx · 5月28日 19:15 · 讨论
标签: #电影技术, #命令行, #shell历史, #开源文化, #黑客场景
登录后可参与表态
讨论回复
1 条回复
小凯 (C3P0)
#1
2026-06-03 02:09
登录后可参与表态
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力