Horizon 每日速递 - 2026-05-29

> 共 47 条，择其精者 35 条。

---

1. Liquid AI reveals 8B-A1B MoE trained on 38T ⭐️ 9.0/10 2. Robust and Efficient Guardrails with Latent Reasoning ⭐️ 9.0/10 3. The Importance of Out-of-Band Metadata for Safe Autonomous Agents: The Redpanda Agentic Data Plane ⭐️ 9.0/10 4. The Chain Holds, the Answer Folds: Trace-Answer Dissociation in Reasoning Models Under Adversarial Pressure ⭐️ 9.0/10 5. The California State Assembly Has Passed the 'Protect Our Games Act' ⭐️ 8.0/10 6. Notes from the Mistral AI Now Summit in Paris ⭐️ 8.0/10 7. GTA 6 Developers Unionize ⭐️ 8.0/10 8. Is AI causing a repeat of frontend’s lost decade? ⭐️ 8.0/10 9. Behavior-Induced Mirror-Prox Temporal-Difference Learning for Faster Off-Policy Prediction ⭐️ 8.0/10 10. Ultra-Reduced-Impact-Encased-Logging (URIEL): propose a new method for selective sustainable logging and post-harvest silvicultural treatment in tropical forest using airborne robotics systems ⭐️ 8.0/10 11. Review Arcade: On the Human Alignment and Gameability of LLM Reviews ⭐️ 8.0/10 12. Orthogonal Concept Erasure for Diffusion Models ⭐️ 8.0/10 13. Frontier LLM-based agents can overcome the ontology curation bottleneck for natural phenotypes ⭐️ 8.0/10 14. Adopt $ eq$ Adapt: Longitudinal Analyses of LLM Conversations in the Wild ⭐️ 8.0/10 15. When Models Disagree: Rethinking LLM Evaluation for Public Comment Analysis ⭐️ 8.0/10 16. Differentiable Belief-based Opponent Shaping ⭐️ 8.0/10 17. SQLite is all you need for durable workflows ⭐️ 7.0/10 18. The dead economy theory ⭐️ 7.0/10 19. On Rendering Diffs ⭐️ 7.0/10 20. Bijou64: A variable-length integer encoding ⭐️ 7.0/10 21. It's hard to justify buying a Framework 12 ⭐️ 7.0/10 22. We should be more tired than the model ⭐️ 7.0/10 23. Behavior-Aware Auxiliary Corrections for Off-Policy Temporal-Difference Prediction ⭐️ 7.0/10 24. The Cognitive Categorical Transformer: Category-Theoretic Inductive Biases for Language Modeling ⭐️ 7.0/10 25. VFEAgent: A Multimodal Agent Framework for End-to-End Automated Finite Element Analysis ⭐️ 7.0/10 26. BEAMS: Benchmarking and Evaluating AI for Modeling and Simulation ⭐️ 7.0/10 27. Mind Your Tone: Does Tone Alter LLM Performance? ⭐️ 7.0/10 28. Hallucination Mitigation with Agentic AI, Nested Learning, and AI Sustainability via Semantic Caching ⭐️ 7.0/10 29. Bridging the Sim-to-Real Gap in Reinforcement Learning-Based Industrial Dispatching through Execution Semantics ⭐️ 7.0/10 30. Trends in AI and Human-AI Interaction in Clinical Trials -- A Hybrid Human-AI Exploration ⭐️ 7.0/10 31. anthropics/claude-code released v2.1.157 ⭐️ 6.0/10 32. Show HN: TV Explorer. Adding advanced UI to free online TV ⭐️ 6.0/10 33. CAPTCHAs can still detect AI agents ⭐️ 6.0/10 34. Practitioner Beliefs and Behaviors in AI-Enhanced Education: DOT Framework Survey Evidence ⭐️ 6.0/10 35. Tech companies desperately want to film you doing chores ⭐️ 6.0/10

---

1. Liquid AI reveals 8B-A1B MoE trained on 38T ⭐️ 9.0/10

Liquid AI 推出新型 MoE 8B 模型，稀疏激活，性能超群。

hackernews · simjnd · 5月29日 16:19 · 讨论

标签: #小模型, #MoE, #稀疏模型, #AI 发布, #高性能

---

2. Robust and Efficient Guardrails with Latent Reasoning ⭐️ 9.0/10

提出 COLAGUARD，将安全推理压缩至连续潜在空间，实现近 13 倍加速且性能持平。

rss · arXiv AI · 5月29日 04:00

标签: #大语言模型安全, #安全护栏, #潜在推理, #效率优化, #模型部署

---

3. The Importance of Out-of-Band Metadata for Safe Autonomous Agents: The Redpanda Agentic Data Plane ⭐️ 9.0/10

提出带外元数据通道架构，在代理读写路径之外强制执行安全策略与审计。

rss · arXiv AI · 5月29日 04:00

标签: #AI安全, #智能体, #数据平面, #安全架构, #元数据

---

4. The Chain Holds, the Answer Folds: Trace-Answer Dissociation in Reasoning Models Under Adversarial Pressure ⭐️ 9.0/10

推理模型在多轮对抗压力下思维链保持正确但最终答案翻错，揭示了评估盲点。

rss · arXiv AI · 5月29日 04:00

标签: #AI安全, #可解释性, #推理模型, #对抗压力, #模型评估

---

5. The California State Assembly Has Passed the 'Protect Our Games Act' ⭐️ 8.0/10

加州议会通过《保护我们的游戏法案》，要求数字游戏在服务终止后仍需可玩，否则禁止销售。

hackernews · TechTechTech · 5月29日 19:55 · 讨论

标签: #数字游戏, #消费者保护, #立法, #游戏保存, #订阅制

---

6. Notes from the Mistral AI Now Summit in Paris ⭐️ 8.0/10

Mistral 峰会笔记显示其技术落后于中、美对手，但 on-prem 策略受监管行业青睐。

hackernews · vnglst · 5月29日 16:22 · 讨论

标签: #AI, #Mistral, #欧洲AI, #小模型, #行业分析

---

7. GTA 6 Developers Unionize ⭐️ 8.0/10

GTA 6 开发者宣布成立工会，争取薪资透明与结束加班。

hackernews · AndrewKemendo · 5月29日 15:32 · 讨论

标签: #游戏开发, #工会, #劳工权益, #工作条件, #行业文化

---

8. Is AI causing a repeat of frontend’s lost decade? ⭐️ 8.0/10

AI 或致前端“失去十年”重演，源于偶然复杂性之削减与专业深度之消解。

hackernews · xyzal · 5月29日 11:09 · 讨论

标签: #前端开发, #人工智能, #技术讨论, #复杂性, #Web开发

---

9. Behavior-Induced Mirror-Prox Temporal-Difference Learning for Faster Off-Policy Prediction ⭐️ 8.0/10

利用行为策略 Bellman 矩阵替代协方差度量，加速离策略线性预测。

rss · arXiv AI · 5月29日 04:00

标签: #强化学习, #时序差分学习, #离策略学习, #镜像近端方法

---

10. Ultra-Reduced-Impact-Encased-Logging (URIEL): propose a new method for selective sustainable logging and post-harvest silvicultural treatment in tropical forest using airborne robotics systems ⭐️ 8.0/10

提出 URIEL 法，利用直升机和空中机器人实现热带森林超低影响选择性采伐并融合 AI 及采后处理。

rss · arXiv AI · 5月29日 04:00

标签: #可持续林业, #热带森林, #空中机器人, #人工智能, #选择性采伐

---

11. Review Arcade: On the Human Alignment and Gameability of LLM Reviews ⭐️ 8.0/10

研究显示 LLM 论文评审与人类对齐有限，且作者可针对性修改以提升评分。

rss · arXiv AI · 5月29日 04:00

标签: #LLM, #学术评审, #对齐性, #AI滥用, #实证研究

---

12. Orthogonal Concept Erasure for Diffusion Models ⭐️ 8.0/10

以正交方向更新实现精确概念擦除，避免破坏模型原有生成能力。

rss · arXiv AI · 5月29日 04:00

标签: #扩散模型, #概念擦除, #安全生成, #正交更新

---

13. Frontier LLM-based agents can overcome the ontology curation bottleneck for natural phenotypes ⭐️ 8.0/10

前沿 LLM 代理可自动将表型文本映射到本体术语，有望代替人工繁琐工作。

rss · arXiv AI · 5月29日 04:00

标签: #大语言模型, #本体, #表型注释, #生物信息学, #自动化

---

14. Adopt $

eq$ Adapt: Longitudinal Analyses of LLM Conversations in the Wild ⭐️ 8.0/10

基于万级真实用户对话数据，发现 LLM 用户行为随时间高度黏滞，活跃用户偏向复杂专业任务。

rss · arXiv AI · 5月29日 04:00

标签: #LLM, #用户行为, #纵向研究, #人机交互

---

15. When Models Disagree: Rethinking LLM Evaluation for Public Comment Analysis ⭐️ 8.0/10

通过多模型分歧诊断公众评论分类中解释复杂性，引导人工审查以提升评估可靠性。

rss · arXiv AI · 5月29日 04:00

标签: #大语言模型, #模型评估, #公共政策, #人工智能可靠性

---

16. Differentiable Belief-based Opponent Shaping ⭐️ 8.0/10

提出可微分信念对手塑造方法，通过微分信念动力学实现策略自然涌现。

rss · arXiv AI · 5月29日 04:00

标签: #多智能体强化学习, #对手塑造, #信念动力学, #可微方法

---

17. SQLite is all you need for durable workflows ⭐️ 7.0/10

SQLite 作为持久化工作流引擎，简单有效，但需警惕并发场景限制。

hackernews · tomasol · 5月29日 17:54 · 讨论

标签: #数据库, #工作流, #SQLite, #持久化, #技术辩论

---

18. The dead economy theory ⭐️ 7.0/10

死经济理论：技术提高效率却导致就业萎缩，需重新分配资源。

hackernews · WillDaSilva · 5月29日 15:46 · 讨论

标签: #技术经济, #人工智能, #自动化, #就业, #社会影响

---

19. On Rendering Diffs ⭐️ 7.0/10

一文解析 CodeView 如何在浏览器中渲染大型 diff，兼顾性能与体验。

hackernews · amadeus · 5月29日 19:04 · 讨论

标签: #代码审查, #diff渲染, #性能优化, #前端技术

---

20. Bijou64: A variable-length integer encoding ⭐️ 7.0/10

提出 Bijou64 变长整数编码，讨论其优缺点与 SIMD 兼容性。

hackernews · justinweiss · 5月29日 15:03 · 讨论

标签: #变长整数编码, #数据序列化, #性能优化, #SIMD

---

21. It's hard to justify buying a Framework 12 ⭐️ 7.0/10

Framework 12 性价比受质疑，但可修复性与 Linux 支持仍吸引特定用户。

hackernews · watermelon0 · 5月29日 14:55 · 讨论

标签: #Framework 12, #可修复性, #Linux生态, #硬件对比, #笔记本电脑

---

22. We should be more tired than the model ⭐️ 7.0/10

探讨 AI 编程时代，人类开发者应更注重品味而非技能。

hackernews · tosh · 5月29日 12:12 · 讨论

标签: #AI编码, #品味, #技能留存, #开发者体验

---

23. Behavior-Aware Auxiliary Corrections for Off-Policy Temporal-Difference Prediction ⭐️ 7.0/10

提出行为感知辅助校正方法，提升离策略时序差分学习的稳定性。

rss · arXiv AI · 5月29日 04:00

标签: #强化学习, #时序差分学习, #离策略学习, #函数近似

---

24. The Cognitive Categorical Transformer: Category-Theoretic Inductive Biases for Language Modeling ⭐️ 7.0/10

范畴论改性的 Transformer 在 GPT-2 Small 上实现 12%困惑度降低，消融证明单形消息传递主导改进。

rss · arXiv AI · 5月29日 04:00

标签: #语言模型, #范畴论, #归纳偏置, #Transformer, #架构创新

---

25. VFEAgent: A Multimodal Agent Framework for End-to-End Automated Finite Element Analysis ⭐️ 7.0/10

提出端到端多智能体系统，利用视觉语言模型自动从图像生成可执行的有限元分析代码。

rss · arXiv AI · 5月29日 04:00

标签: #多模态, #有限元分析, #大语言模型, #智能体框架, #工程自动化

---

26. BEAMS: Benchmarking and Evaluating AI for Modeling and Simulation ⭐️ 7.0/10

BEAMS 倡议建立 AI 建模与模拟评估基准，强调人本与责任伦理。

rss · arXiv AI · 5月29日 04:00

标签: #AI建模, #模拟, #基准测试, #人本AI, #责任伦理

---

27. Mind Your Tone: Does Tone Alter LLM Performance? ⭐️ 7.0/10

研究揭示提示语调显著影响 LLM 准确率，且效应因模型而异。

rss · arXiv AI · 5月29日 04:00

标签: #大型语言模型, #提示工程, #语调影响, #模型评估

---

28. Hallucination Mitigation with Agentic AI, Nested Learning, and AI Sustainability via Semantic Caching ⭐️ 7.0/10

论文提出 HOPE 启发的嵌套学习架构配合语义缓存，以缓解多代理 LLM 管道中的幻觉问题。

rss · arXiv AI · 5月29日 04:00

标签: #大语言模型, #幻觉缓解, #代理AI, #语义缓存

---

29. Bridging the Sim-to-Real Gap in Reinforcement Learning-Based Industrial Dispatching through Execution Semantics ⭐️ 7.0/10

创新执行层设计，明确动作可容许性，分离决策与执行语义，提升工业调度可靠性。

rss · arXiv AI · 5月29日 04:00

标签: #强化学习, #工业调度, #仿真到现实, #执行语义

---

30. Trends in AI and Human-AI Interaction in Clinical Trials -- A Hybrid Human-AI Exploration ⭐️ 7.0/10

混合人-AI 方法分析临床试验 AI 趋势，发现中美主导，多国增长。

rss · arXiv AI · 5月29日 04:00

标签: #人工智能, #临床试验, #趋势分析, #人机交互, #大语言模型

---

31. anthropics/claude-code released v2.1.157 ⭐️ 6.0/10

Claude Code v2.1.157 新增插件自动加载与初始化、agent 字段支持等实用功能

github · ashwin-ant · 5月29日 20:20

标签: #Claude Code, #CLI 工具, #插件系统, #版本更新

---

32. Show HN: TV Explorer. Adding advanced UI to free online TV ⭐️ 6.0/10

免费在线电视高级 UI，支持全球频道浏览与多用途观看。

hackernews · dtagames · 5月29日 16:39 · 讨论

标签: #IPTV, #在线电视, #UI设计, #新闻对比, #语言学习

---

33. CAPTCHAs can still detect AI agents ⭐️ 6.0/10

验证码仍可识别 AI 代理，但主要目的为追踪用户，引发隐私与无障碍争议。

hackernews · timshell · 5月29日 15:57 · 讨论

标签: #验证码, #AI代理, #隐私, #无障碍

---

34. Practitioner Beliefs and Behaviors in AI-Enhanced Education: DOT Framework Survey Evidence ⭐️ 6.0/10

基于 DOT 框架调查 72 名高等教育从业者，揭示 AI 整合教学的信念、行为与制度条件。

rss · arXiv AI · 5月29日 04:00

标签: #AI教育, #高等教育, #教学实践, #DOT框架

---

35. Tech companies desperately want to film you doing chores ⭐️ 6.0/10

AI 公司以免费家政服务换取用户视频数据训练机器人。

rss · The Verge · 5月29日 17:37

标签: #数据隐私, #AI, #机器人训练, #家政服务

---

深度解读：CoLaGuard——把安全推理塞进隐空间，快 13 倍还能守住底线

AI 安全护栏面临一个尴尬的困境：

快的不准，准的不快。

单次分类的护栏快如闪电——一个 forward pass 就出结果，但遇到模糊、对抗性或上下文敏感的安全决策就崩盘。链式思维（CoT）护栏准得多——先推理再判断，但生成推理 token 的开销让延迟飙升，生产环境根本扛不住。

CoLaGuard（Chain-of-Latent Guardrails）提出了一个看似不可能的方案：保留推理的好处，但不生成推理 token。 把思维链塞进隐空间，推理在连续潜在状态中完成，只输出最终的安全标签。

结果：12.9 倍加速，22.4 倍 token 节省，性能不降。

---

问题：显式推理的代价

先理解为什么显式推理护栏这么贵。

一个典型的 CoT 护栏流程是这样的：

1. 接收用户输入 x 和模型输出 s 2. 生成一段推理文本："该请求要求用户绕过安全协议，这违反了使用政策第 3.2 条……" 3. 基于推理文本，输出安全标签（安全/不安全）

问题出在第 2 步：生成推理文本需要逐 token 自回归解码，每个 token 都依赖前面的所有 token。一段 50-100 token 的推理意味着 50-100 次 sequential 的前向传播。

在生产环境中，这意味着每次内容审核的延迟从毫秒级飙升到秒级。对于需要实时审核每秒数千条内容的平台来说，这是不可接受的。

更糟糕的是，推理文本本身可能泄露审核逻辑，给攻击者提供逆向工程的机会。

---

方案：渐进式内化（Stage-wise Internalization）

CoLaGuard 的核心创新是渐进式内化课程——不是一步到位地把推理塞进隐空间，而是分阶段逐步替换。

阶段 1：显式热身（Explicit Warm-up）

先用标准的 CoT 监督训练护栏模型：输入 (x, s)，生成推理文本 r，输出安全标签 (ŷᵖ, ŷʳ)。这一步确保模型学会了正确的推理模式。

阶段 2：渐进替换（Progressive Replacement）

逐步将推理 token 替换为潜在状态。具体来说：

原本第 t 步生成 token rₜ = Decode(hₜ)，现在改为 hₜ → Latent(hₜ) → hₜ₊₁
潜在状态 hₜ 是一个连续向量，不对应任何离散 token
用循环机制（recurrence）让潜在状态之间传递信息：hₜ₊₁ = Recur(hₜ, xₜ)

替换是渐进的：先替换最后几步的推理 token，验证性能不降，再替换更多步骤，直到所有推理 token 都被潜在状态替代。

阶段 3：纯潜在推理（Pure Latent Reasoning）

所有推理步骤都在隐空间完成。模型的 forward pass 变成：

1. 编码输入 (x, s) → h₀ 2. 循环 K 次：hₖ = Recur(hₖ₋₁) 3. 解码安全标签：(ŷᵖ, ŷʳ) = Decode(hₖ)

K 次循环对应 K 步推理，但每次循环只是一个矩阵乘法，不需要自回归解码。这就是 12.9 倍加速的来源。

---

技术细节：让潜在推理稳定

把推理塞进隐空间听起来简单，做起来有几个关键挑战：

1. 分布不匹配

原始的隐藏状态 hₜ 是为预测下一个 token 优化的，它的分布和 token 嵌入空间（vocabulary embedding manifold）不匹配。直接把 hₜ 当作潜在推理状态会导致训练不稳定。

CoLaGuard 借鉴了 Latent Thoughts Tuning（Liu et al., 2026）的思路：引入上下文-预测融合机制，将上下文隐藏状态与词汇嵌入空间的预测信号对齐。简单说，就是让潜在状态"说一种模型能理解的语言"。

2. 循环深度选择

K 次循环意味着 K 步推理。K 太小，推理不充分；K 太大，计算浪费。CoLaGuard 通过验证集上的性能曲线选择最优 K，通常在 4-8 步之间。

3. 训练稳定性

渐进替换的关键是每一步都要确保性能不降。CoLaGuard 使用了一个验证监控机制：如果替换某一步后性能下降超过阈值，就回退并增加该阶段的训练轮数。

---

实验：快且准

CoLaGuard 在多个安全审核基准上验证：

效率提升：

推理速度：12.9 倍加速（相比显式 CoT 护栏）
Token 消耗：22.4 倍减少
这意味着原本需要 100ms 的审核现在只需 ~8ms

性能保持：

在标准安全基准上，CoLaGuard 的审核准确率与显式 CoT 护栏持平
在对抗性基准上（故意绕过护栏的输入），CoLaGuard 甚至略优于显式 CoT——可能因为潜在推理不暴露推理逻辑，攻击者更难逆向工程

消融实验：

去掉渐进式内化（直接训练潜在推理）→ 性能显著下降
去掉上下文-预测融合 → 训练不稳定，收敛困难
减少循环次数 K → 性能下降，但 K=4 已经接近 K=8 的 95%

---

更深层的启示

1. "推理"不一定需要语言。 CoLaGuard 证明了一个重要的认知科学假说：推理的本质是信息变换，不是语言生成。模型可以在连续空间中完成多步推理，不需要把每一步都翻译成人类可读的文字。

2. 显式推理的安全隐患。 显式 CoT 护栏生成的推理文本可能泄露审核逻辑，给攻击者提供信息。潜在推理天然具有隐私优势——攻击者看不到推理过程。

3. 渐进式内化是一种通用范式。 从显式到隐式的渐进替换，不仅适用于安全护栏，还可能适用于任何需要"推理但不输出推理过程"的场景：代码审查、法律判断、医疗诊断。

4. 效率和鲁棒性不是零和博弈。 传统观点认为"快就不准，准就不快"。CoLaGuard 展示了一条中间路径：通过改变推理的介质（从离散 token 到连续向量），同时获得效率和鲁棒性。

---

与相关工作的对比

vs 单次分类护栏：CoLaGuard 保留了多步推理的优势，在对抗性输入上显著更鲁棒。

vs 显式 CoT 护栏：CoLaGuard 在性能持平的前提下，实现了数量级的效率提升。

vs Pause Token / Think Token：Pause Token 只是插入空 token 让模型"多想一步"，没有显式的推理监督。CoLaGuard 用 CoT 作为训练监督，然后内化到潜在状态，推理质量有保障。

vs LatentCoT-Horizon：这是一个论文集合，整理了潜在推理的相关工作。CoLaGuard 的独特贡献在于将潜在推理专门应用于安全护栏场景，并设计了渐进式内化课程。

---

局限

潜在推理的可解释性降低：无法像显式 CoT 那样审查推理过程
渐进式内化的训练成本高于直接训练（需要先训练显式版本，再逐步替换）
当前实验限于安全审核任务，在更复杂的推理任务（数学、逻辑）上的效果有待验证
循环次数 K 是超参数，需要针对不同任务调整

---

一句话总结

CoLaGuard 证明了一件事：推理不需要说出来。把思维链塞进隐空间，12.9 倍加速、22.4 倍省 token，还能守住安全底线——甚至因为不暴露推理逻辑，反而更难被攻击。

论文链接：https://arxiv.org/abs/2605.29068

Horizon AI 日报 - 2026-05-30

Horizon 每日速递 - 2026-05-29

1. Liquid AI reveals 8B-A1B MoE trained on 38T ⭐️ 9.0/10

2. Robust and Efficient Guardrails with Latent Reasoning ⭐️ 9.0/10

3. The Importance of Out-of-Band Metadata for Safe Autonomous Agents: The Redpanda Agentic Data Plane ⭐️ 9.0/10

4. The Chain Holds, the Answer Folds: Trace-Answer Dissociation in Reasoning Models Under Adversarial Pressure ⭐️ 9.0/10

5. The California State Assembly Has Passed the 'Protect Our Games Act' ⭐️ 8.0/10

6. Notes from the Mistral AI Now Summit in Paris ⭐️ 8.0/10

7. GTA 6 Developers Unionize ⭐️ 8.0/10

8. Is AI causing a repeat of frontend’s lost decade? ⭐️ 8.0/10

9. Behavior-Induced Mirror-Prox Temporal-Difference Learning for Faster Off-Policy Prediction ⭐️ 8.0/10

10. Ultra-Reduced-Impact-Encased-Logging (URIEL): propose a new method for selective sustainable logging and post-harvest silvicultural treatment in tropical forest using airborne robotics systems ⭐️ 8.0/10

11. Review Arcade: On the Human Alignment and Gameability of LLM Reviews ⭐️ 8.0/10

12. Orthogonal Concept Erasure for Diffusion Models ⭐️ 8.0/10

13. Frontier LLM-based agents can overcome the ontology curation bottleneck for natural phenotypes ⭐️ 8.0/10

14. Adopt $

15. When Models Disagree: Rethinking LLM Evaluation for Public Comment Analysis ⭐️ 8.0/10

16. Differentiable Belief-based Opponent Shaping ⭐️ 8.0/10

17. SQLite is all you need for durable workflows ⭐️ 7.0/10

18. The dead economy theory ⭐️ 7.0/10

19. On Rendering Diffs ⭐️ 7.0/10

20. Bijou64: A variable-length integer encoding ⭐️ 7.0/10

21. It's hard to justify buying a Framework 12 ⭐️ 7.0/10

22. We should be more tired than the model ⭐️ 7.0/10

23. Behavior-Aware Auxiliary Corrections for Off-Policy Temporal-Difference Prediction ⭐️ 7.0/10

24. The Cognitive Categorical Transformer: Category-Theoretic Inductive Biases for Language Modeling ⭐️ 7.0/10

25. VFEAgent: A Multimodal Agent Framework for End-to-End Automated Finite Element Analysis ⭐️ 7.0/10

26. BEAMS: Benchmarking and Evaluating AI for Modeling and Simulation ⭐️ 7.0/10

27. Mind Your Tone: Does Tone Alter LLM Performance? ⭐️ 7.0/10

28. Hallucination Mitigation with Agentic AI, Nested Learning, and AI Sustainability via Semantic Caching ⭐️ 7.0/10

29. Bridging the Sim-to-Real Gap in Reinforcement Learning-Based Industrial Dispatching through Execution Semantics ⭐️ 7.0/10

30. Trends in AI and Human-AI Interaction in Clinical Trials -- A Hybrid Human-AI Exploration ⭐️ 7.0/10

31. anthropics/claude-code released v2.1.157 ⭐️ 6.0/10

32. Show HN: TV Explorer. Adding advanced UI to free online TV ⭐️ 6.0/10

33. CAPTCHAs can still detect AI agents ⭐️ 6.0/10

34. Practitioner Beliefs and Behaviors in AI-Enhanced Education: DOT Framework Survey Evidence ⭐️ 6.0/10

35. Tech companies desperately want to film you doing chores ⭐️ 6.0/10

深度解读：CoLaGuard——把安全推理塞进隐空间，快 13 倍还能守住底线

问题：显式推理的代价

方案：渐进式内化（Stage-wise Internalization）

技术细节：让潜在推理稳定

实验：快且准

更深层的启示

与相关工作的对比

局限

一句话总结

🌟 智谱 GLM-5 已上线