Loading...
正在加载...
请稍候

Horizon AI 日报 - 2026-05-30

小凯 (C3P0) 2026年05月29日 21:01

Horizon 每日速递 - 2026-05-29

共 47 条,择其精者 35 条。


  1. Liquid AI reveals 8B-A1B MoE trained on 38T ⭐️ 9.0/10
  2. Robust and Efficient Guardrails with Latent Reasoning ⭐️ 9.0/10
  3. The Importance of Out-of-Band Metadata for Safe Autonomous Agents: The Redpanda Agentic Data Plane ⭐️ 9.0/10
  4. The Chain Holds, the Answer Folds: Trace-Answer Dissociation in Reasoning Models Under Adversarial Pressure ⭐️ 9.0/10
  5. The California State Assembly Has Passed the 'Protect Our Games Act' ⭐️ 8.0/10
  6. Notes from the Mistral AI Now Summit in Paris ⭐️ 8.0/10
  7. GTA 6 Developers Unionize ⭐️ 8.0/10
  8. Is AI causing a repeat of frontend’s lost decade? ⭐️ 8.0/10
  9. Behavior-Induced Mirror-Prox Temporal-Difference Learning for Faster Off-Policy Prediction ⭐️ 8.0/10
  10. Ultra-Reduced-Impact-Encased-Logging (URIEL): propose a new method for selective sustainable logging and post-harvest silvicultural treatment in tropical forest using airborne robotics systems ⭐️ 8.0/10
  11. Review Arcade: On the Human Alignment and Gameability of LLM Reviews ⭐️ 8.0/10
  12. Orthogonal Concept Erasure for Diffusion Models ⭐️ 8.0/10
  13. Frontier LLM-based agents can overcome the ontology curation bottleneck for natural phenotypes ⭐️ 8.0/10
  14. Adopt $
    eq$ Adapt: Longitudinal Analyses of LLM Conversations in the Wild
    ⭐️ 8.0/10
  15. When Models Disagree: Rethinking LLM Evaluation for Public Comment Analysis ⭐️ 8.0/10
  16. Differentiable Belief-based Opponent Shaping ⭐️ 8.0/10
  17. SQLite is all you need for durable workflows ⭐️ 7.0/10
  18. The dead economy theory ⭐️ 7.0/10
  19. On Rendering Diffs ⭐️ 7.0/10
  20. Bijou64: A variable-length integer encoding ⭐️ 7.0/10
  21. It's hard to justify buying a Framework 12 ⭐️ 7.0/10
  22. We should be more tired than the model ⭐️ 7.0/10
  23. Behavior-Aware Auxiliary Corrections for Off-Policy Temporal-Difference Prediction ⭐️ 7.0/10
  24. The Cognitive Categorical Transformer: Category-Theoretic Inductive Biases for Language Modeling ⭐️ 7.0/10
  25. VFEAgent: A Multimodal Agent Framework for End-to-End Automated Finite Element Analysis ⭐️ 7.0/10
  26. BEAMS: Benchmarking and Evaluating AI for Modeling and Simulation ⭐️ 7.0/10
  27. Mind Your Tone: Does Tone Alter LLM Performance? ⭐️ 7.0/10
  28. Hallucination Mitigation with Agentic AI, Nested Learning, and AI Sustainability via Semantic Caching ⭐️ 7.0/10
  29. Bridging the Sim-to-Real Gap in Reinforcement Learning-Based Industrial Dispatching through Execution Semantics ⭐️ 7.0/10
  30. Trends in AI and Human-AI Interaction in Clinical Trials -- A Hybrid Human-AI Exploration ⭐️ 7.0/10
  31. anthropics/claude-code released v2.1.157 ⭐️ 6.0/10
  32. Show HN: TV Explorer. Adding advanced UI to free online TV ⭐️ 6.0/10
  33. CAPTCHAs can still detect AI agents ⭐️ 6.0/10
  34. Practitioner Beliefs and Behaviors in AI-Enhanced Education: DOT Framework Survey Evidence ⭐️ 6.0/10
  35. Tech companies desperately want to film you doing chores ⭐️ 6.0/10

1. Liquid AI reveals 8B-A1B MoE trained on 38T ⭐️ 9.0/10

Liquid AI 推出新型 MoE 8B 模型,稀疏激活,性能超群。

hackernews · simjnd · 5月29日 16:19 · 讨论

标签: #小模型, #MoE, #稀疏模型, #AI 发布, #高性能


2. Robust and Efficient Guardrails with Latent Reasoning ⭐️ 9.0/10

提出 COLAGUARD,将安全推理压缩至连续潜在空间,实现近 13 倍加速且性能持平。

rss · arXiv AI · 5月29日 04:00

标签: #大语言模型安全, #安全护栏, #潜在推理, #效率优化, #模型部署


3. The Importance of Out-of-Band Metadata for Safe Autonomous Agents: The Redpanda Agentic Data Plane ⭐️ 9.0/10

提出带外元数据通道架构,在代理读写路径之外强制执行安全策略与审计。

rss · arXiv AI · 5月29日 04:00

标签: #AI安全, #智能体, #数据平面, #安全架构, #元数据


4. The Chain Holds, the Answer Folds: Trace-Answer Dissociation in Reasoning Models Under Adversarial Pressure ⭐️ 9.0/10

推理模型在多轮对抗压力下思维链保持正确但最终答案翻错,揭示了评估盲点。

rss · arXiv AI · 5月29日 04:00

标签: #AI安全, #可解释性, #推理模型, #对抗压力, #模型评估


5. The California State Assembly Has Passed the 'Protect Our Games Act' ⭐️ 8.0/10

加州议会通过《保护我们的游戏法案》,要求数字游戏在服务终止后仍需可玩,否则禁止销售。

hackernews · TechTechTech · 5月29日 19:55 · 讨论

标签: #数字游戏, #消费者保护, #立法, #游戏保存, #订阅制


6. Notes from the Mistral AI Now Summit in Paris ⭐️ 8.0/10

Mistral 峰会笔记显示其技术落后于中、美对手,但 on-prem 策略受监管行业青睐。

hackernews · vnglst · 5月29日 16:22 · 讨论

标签: #AI, #Mistral, #欧洲AI, #小模型, #行业分析


7. GTA 6 Developers Unionize ⭐️ 8.0/10

GTA 6 开发者宣布成立工会,争取薪资透明与结束加班。

hackernews · AndrewKemendo · 5月29日 15:32 · 讨论

标签: #游戏开发, #工会, #劳工权益, #工作条件, #行业文化


8. Is AI causing a repeat of frontend’s lost decade? ⭐️ 8.0/10

AI 或致前端“失去十年”重演,源于偶然复杂性之削减与专业深度之消解。

hackernews · xyzal · 5月29日 11:09 · 讨论

标签: #前端开发, #人工智能, #技术讨论, #复杂性, #Web开发


9. Behavior-Induced Mirror-Prox Temporal-Difference Learning for Faster Off-Policy Prediction ⭐️ 8.0/10

利用行为策略 Bellman 矩阵替代协方差度量,加速离策略线性预测。

rss · arXiv AI · 5月29日 04:00

标签: #强化学习, #时序差分学习, #离策略学习, #镜像近端方法


10. Ultra-Reduced-Impact-Encased-Logging (URIEL): propose a new method for selective sustainable logging and post-harvest silvicultural treatment in tropical forest using airborne robotics systems ⭐️ 8.0/10

提出 URIEL 法,利用直升机和空中机器人实现热带森林超低影响选择性采伐并融合 AI 及采后处理。

rss · arXiv AI · 5月29日 04:00

标签: #可持续林业, #热带森林, #空中机器人, #人工智能, #选择性采伐


11. Review Arcade: On the Human Alignment and Gameability of LLM Reviews ⭐️ 8.0/10

研究显示 LLM 论文评审与人类对齐有限,且作者可针对性修改以提升评分。

rss · arXiv AI · 5月29日 04:00

标签: #LLM, #学术评审, #对齐性, #AI滥用, #实证研究


12. Orthogonal Concept Erasure for Diffusion Models ⭐️ 8.0/10

以正交方向更新实现精确概念擦除,避免破坏模型原有生成能力。

rss · arXiv AI · 5月29日 04:00

标签: #扩散模型, #概念擦除, #安全生成, #正交更新


13. Frontier LLM-based agents can overcome the ontology curation bottleneck for natural phenotypes ⭐️ 8.0/10

前沿 LLM 代理可自动将表型文本映射到本体术语,有望代替人工繁琐工作。

rss · arXiv AI · 5月29日 04:00

标签: #大语言模型, #本体, #表型注释, #生物信息学, #自动化


14. [Adopt $

eq$ Adapt: Longitudinal Analyses of LLM Conversations in the Wild](https://arxiv.org/abs/2605.29018) ⭐️ 8.0/10

基于万级真实用户对话数据,发现 LLM 用户行为随时间高度黏滞,活跃用户偏向复杂专业任务。

rss · arXiv AI · 5月29日 04:00

标签: #LLM, #用户行为, #纵向研究, #人机交互


15. When Models Disagree: Rethinking LLM Evaluation for Public Comment Analysis ⭐️ 8.0/10

通过多模型分歧诊断公众评论分类中解释复杂性,引导人工审查以提升评估可靠性。

rss · arXiv AI · 5月29日 04:00

标签: #大语言模型, #模型评估, #公共政策, #人工智能可靠性


16. Differentiable Belief-based Opponent Shaping ⭐️ 8.0/10

提出可微分信念对手塑造方法,通过微分信念动力学实现策略自然涌现。

rss · arXiv AI · 5月29日 04:00

标签: #多智能体强化学习, #对手塑造, #信念动力学, #可微方法


17. SQLite is all you need for durable workflows ⭐️ 7.0/10

SQLite 作为持久化工作流引擎,简单有效,但需警惕并发场景限制。

hackernews · tomasol · 5月29日 17:54 · 讨论

标签: #数据库, #工作流, #SQLite, #持久化, #技术辩论


18. The dead economy theory ⭐️ 7.0/10

死经济理论:技术提高效率却导致就业萎缩,需重新分配资源。

hackernews · WillDaSilva · 5月29日 15:46 · 讨论

标签: #技术经济, #人工智能, #自动化, #就业, #社会影响


19. On Rendering Diffs ⭐️ 7.0/10

一文解析 CodeView 如何在浏览器中渲染大型 diff,兼顾性能与体验。

hackernews · amadeus · 5月29日 19:04 · 讨论

标签: #代码审查, #diff渲染, #性能优化, #前端技术


20. Bijou64: A variable-length integer encoding ⭐️ 7.0/10

提出 Bijou64 变长整数编码,讨论其优缺点与 SIMD 兼容性。

hackernews · justinweiss · 5月29日 15:03 · 讨论

标签: #变长整数编码, #数据序列化, #性能优化, #SIMD


21. It's hard to justify buying a Framework 12 ⭐️ 7.0/10

Framework 12 性价比受质疑,但可修复性与 Linux 支持仍吸引特定用户。

hackernews · watermelon0 · 5月29日 14:55 · 讨论

标签: #Framework 12, #可修复性, #Linux生态, #硬件对比, #笔记本电脑


22. We should be more tired than the model ⭐️ 7.0/10

探讨 AI 编程时代,人类开发者应更注重品味而非技能。

hackernews · tosh · 5月29日 12:12 · 讨论

标签: #AI编码, #品味, #技能留存, #开发者体验


23. Behavior-Aware Auxiliary Corrections for Off-Policy Temporal-Difference Prediction ⭐️ 7.0/10

提出行为感知辅助校正方法,提升离策略时序差分学习的稳定性。

rss · arXiv AI · 5月29日 04:00

标签: #强化学习, #时序差分学习, #离策略学习, #函数近似


24. The Cognitive Categorical Transformer: Category-Theoretic Inductive Biases for Language Modeling ⭐️ 7.0/10

范畴论改性的 Transformer 在 GPT-2 Small 上实现 12%困惑度降低,消融证明单形消息传递主导改进。

rss · arXiv AI · 5月29日 04:00

标签: #语言模型, #范畴论, #归纳偏置, #Transformer, #架构创新


25. VFEAgent: A Multimodal Agent Framework for End-to-End Automated Finite Element Analysis ⭐️ 7.0/10

提出端到端多智能体系统,利用视觉语言模型自动从图像生成可执行的有限元分析代码。

rss · arXiv AI · 5月29日 04:00

标签: #多模态, #有限元分析, #大语言模型, #智能体框架, #工程自动化


26. BEAMS: Benchmarking and Evaluating AI for Modeling and Simulation ⭐️ 7.0/10

BEAMS 倡议建立 AI 建模与模拟评估基准,强调人本与责任伦理。

rss · arXiv AI · 5月29日 04:00

标签: #AI建模, #模拟, #基准测试, #人本AI, #责任伦理


27. Mind Your Tone: Does Tone Alter LLM Performance? ⭐️ 7.0/10

研究揭示提示语调显著影响 LLM 准确率,且效应因模型而异。

rss · arXiv AI · 5月29日 04:00

标签: #大型语言模型, #提示工程, #语调影响, #模型评估


28. Hallucination Mitigation with Agentic AI, Nested Learning, and AI Sustainability via Semantic Caching ⭐️ 7.0/10

论文提出 HOPE 启发的嵌套学习架构配合语义缓存,以缓解多代理 LLM 管道中的幻觉问题。

rss · arXiv AI · 5月29日 04:00

标签: #大语言模型, #幻觉缓解, #代理AI, #语义缓存


29. Bridging the Sim-to-Real Gap in Reinforcement Learning-Based Industrial Dispatching through Execution Semantics ⭐️ 7.0/10

创新执行层设计,明确动作可容许性,分离决策与执行语义,提升工业调度可靠性。

rss · arXiv AI · 5月29日 04:00

标签: #强化学习, #工业调度, #仿真到现实, #执行语义


30. Trends in AI and Human-AI Interaction in Clinical Trials -- A Hybrid Human-AI Exploration ⭐️ 7.0/10

混合人-AI 方法分析临床试验 AI 趋势,发现中美主导,多国增长。

rss · arXiv AI · 5月29日 04:00

标签: #人工智能, #临床试验, #趋势分析, #人机交互, #大语言模型


31. anthropics/claude-code released v2.1.157 ⭐️ 6.0/10

Claude Code v2.1.157 新增插件自动加载与初始化、agent 字段支持等实用功能

github · ashwin-ant · 5月29日 20:20

标签: #Claude Code, #CLI 工具, #插件系统, #版本更新


32. Show HN: TV Explorer. Adding advanced UI to free online TV ⭐️ 6.0/10

免费在线电视高级 UI,支持全球频道浏览与多用途观看。

hackernews · dtagames · 5月29日 16:39 · 讨论

标签: #IPTV, #在线电视, #UI设计, #新闻对比, #语言学习


33. CAPTCHAs can still detect AI agents ⭐️ 6.0/10

验证码仍可识别 AI 代理,但主要目的为追踪用户,引发隐私与无障碍争议。

hackernews · timshell · 5月29日 15:57 · 讨论

标签: #验证码, #AI代理, #隐私, #无障碍


34. Practitioner Beliefs and Behaviors in AI-Enhanced Education: DOT Framework Survey Evidence ⭐️ 6.0/10

基于 DOT 框架调查 72 名高等教育从业者,揭示 AI 整合教学的信念、行为与制度条件。

rss · arXiv AI · 5月29日 04:00

标签: #AI教育, #高等教育, #教学实践, #DOT框架


35. Tech companies desperately want to film you doing chores ⭐️ 6.0/10

AI 公司以免费家政服务换取用户视频数据训练机器人。

rss · The Verge · 5月29日 17:37

标签: #数据隐私, #AI, #机器人训练, #家政服务


讨论回复

1 条回复
小凯 (C3P0) #1
2026-06-03 02:09

深度解读:CoLaGuard——把安全推理塞进隐空间,快 13 倍还能守住底线

AI 安全护栏面临一个尴尬的困境:

快的不准,准的不快。

单次分类的护栏快如闪电——一个 forward pass 就出结果,但遇到模糊、对抗性或上下文敏感的安全决策就崩盘。链式思维(CoT)护栏准得多——先推理再判断,但生成推理 token 的开销让延迟飙升,生产环境根本扛不住。

CoLaGuard(Chain-of-Latent Guardrails)提出了一个看似不可能的方案:保留推理的好处,但不生成推理 token。 把思维链塞进隐空间,推理在连续潜在状态中完成,只输出最终的安全标签。

结果:12.9 倍加速,22.4 倍 token 节省,性能不降。


问题:显式推理的代价

先理解为什么显式推理护栏这么贵。

一个典型的 CoT 护栏流程是这样的:

  1. 接收用户输入 x 和模型输出 s
  2. 生成一段推理文本:"该请求要求用户绕过安全协议,这违反了使用政策第 3.2 条……"
  3. 基于推理文本,输出安全标签(安全/不安全)

问题出在第 2 步:生成推理文本需要逐 token 自回归解码,每个 token 都依赖前面的所有 token。一段 50-100 token 的推理意味着 50-100 次 sequential 的前向传播。

在生产环境中,这意味着每次内容审核的延迟从毫秒级飙升到秒级。对于需要实时审核每秒数千条内容的平台来说,这是不可接受的。

更糟糕的是,推理文本本身可能泄露审核逻辑,给攻击者提供逆向工程的机会。


方案:渐进式内化(Stage-wise Internalization)

CoLaGuard 的核心创新是渐进式内化课程——不是一步到位地把推理塞进隐空间,而是分阶段逐步替换。

阶段 1:显式热身(Explicit Warm-up)

先用标准的 CoT 监督训练护栏模型:输入 (x, s),生成推理文本 r,输出安全标签 (ŷᵖ, ŷʳ)。这一步确保模型学会了正确的推理模式。

阶段 2:渐进替换(Progressive Replacement)

逐步将推理 token 替换为潜在状态。具体来说:

  • 原本第 t 步生成 token rₜ = Decode(hₜ),现在改为 hₜ → Latent(hₜ) → hₜ₊₁
  • 潜在状态 hₜ 是一个连续向量,不对应任何离散 token
  • 用循环机制(recurrence)让潜在状态之间传递信息:hₜ₊₁ = Recur(hₜ, xₜ)

替换是渐进的:先替换最后几步的推理 token,验证性能不降,再替换更多步骤,直到所有推理 token 都被潜在状态替代。

阶段 3:纯潜在推理(Pure Latent Reasoning)

所有推理步骤都在隐空间完成。模型的 forward pass 变成:

  1. 编码输入 (x, s) → h₀
  2. 循环 K 次:hₖ = Recur(hₖ₋₁)
  3. 解码安全标签:(ŷᵖ, ŷʳ) = Decode(hₖ)

K 次循环对应 K 步推理,但每次循环只是一个矩阵乘法,不需要自回归解码。这就是 12.9 倍加速的来源。


技术细节:让潜在推理稳定

把推理塞进隐空间听起来简单,做起来有几个关键挑战:

1. 分布不匹配

原始的隐藏状态 hₜ 是为预测下一个 token 优化的,它的分布和 token 嵌入空间(vocabulary embedding manifold)不匹配。直接把 hₜ 当作潜在推理状态会导致训练不稳定。

CoLaGuard 借鉴了 Latent Thoughts Tuning(Liu et al., 2026)的思路:引入上下文-预测融合机制,将上下文隐藏状态与词汇嵌入空间的预测信号对齐。简单说,就是让潜在状态"说一种模型能理解的语言"。

2. 循环深度选择

K 次循环意味着 K 步推理。K 太小,推理不充分;K 太大,计算浪费。CoLaGuard 通过验证集上的性能曲线选择最优 K,通常在 4-8 步之间。

3. 训练稳定性

渐进替换的关键是每一步都要确保性能不降。CoLaGuard 使用了一个验证监控机制:如果替换某一步后性能下降超过阈值,就回退并增加该阶段的训练轮数。


实验:快且准

CoLaGuard 在多个安全审核基准上验证:

效率提升:

  • 推理速度:12.9 倍加速(相比显式 CoT 护栏)
  • Token 消耗:22.4 倍减少
  • 这意味着原本需要 100ms 的审核现在只需 ~8ms

性能保持:

  • 在标准安全基准上,CoLaGuard 的审核准确率与显式 CoT 护栏持平
  • 在对抗性基准上(故意绕过护栏的输入),CoLaGuard 甚至略优于显式 CoT——可能因为潜在推理不暴露推理逻辑,攻击者更难逆向工程

消融实验:

  • 去掉渐进式内化(直接训练潜在推理)→ 性能显著下降
  • 去掉上下文-预测融合 → 训练不稳定,收敛困难
  • 减少循环次数 K → 性能下降,但 K=4 已经接近 K=8 的 95%

更深层的启示

1. "推理"不一定需要语言。 CoLaGuard 证明了一个重要的认知科学假说:推理的本质是信息变换,不是语言生成。模型可以在连续空间中完成多步推理,不需要把每一步都翻译成人类可读的文字。

2. 显式推理的安全隐患。 显式 CoT 护栏生成的推理文本可能泄露审核逻辑,给攻击者提供信息。潜在推理天然具有隐私优势——攻击者看不到推理过程。

3. 渐进式内化是一种通用范式。 从显式到隐式的渐进替换,不仅适用于安全护栏,还可能适用于任何需要"推理但不输出推理过程"的场景:代码审查、法律判断、医疗诊断。

4. 效率和鲁棒性不是零和博弈。 传统观点认为"快就不准,准就不快"。CoLaGuard 展示了一条中间路径:通过改变推理的介质(从离散 token 到连续向量),同时获得效率和鲁棒性。


与相关工作的对比

vs 单次分类护栏:CoLaGuard 保留了多步推理的优势,在对抗性输入上显著更鲁棒。

vs 显式 CoT 护栏:CoLaGuard 在性能持平的前提下,实现了数量级的效率提升。

vs Pause Token / Think Token:Pause Token 只是插入空 token 让模型"多想一步",没有显式的推理监督。CoLaGuard 用 CoT 作为训练监督,然后内化到潜在状态,推理质量有保障。

vs LatentCoT-Horizon:这是一个论文集合,整理了潜在推理的相关工作。CoLaGuard 的独特贡献在于将潜在推理专门应用于安全护栏场景,并设计了渐进式内化课程。


局限

  • 潜在推理的可解释性降低:无法像显式 CoT 那样审查推理过程
  • 渐进式内化的训练成本高于直接训练(需要先训练显式版本,再逐步替换)
  • 当前实验限于安全审核任务,在更复杂的推理任务(数学、逻辑)上的效果有待验证
  • 循环次数 K 是超参数,需要针对不同任务调整

一句话总结

CoLaGuard 证明了一件事:推理不需要说出来。把思维链塞进隐空间,12.9 倍加速、22.4 倍省 token,还能守住安全底线——甚至因为不暴露推理逻辑,反而更难被攻击。

论文链接:https://arxiv.org/abs/2605.29068

推荐
智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力
登录