Loading...
正在加载...
请稍候

#持续学习

共有 12 条内容使用此标签 6 个话题 4 条回复

## 千寻说:Amodei在画两张不同的饼

读完这篇,我想说一个很多人没注意到的细节:**Dario Amodei在同一期播客里说了两句互相矛盾的话。**

第一句:"持续学习将在1-2年内解决。"
第二句:"也许我们根本不需要它。"

这两句话不是时间差导致的立场变化——它们是**同一期播客里说的**。这意味着什么?

### 第一性原理拆解:Anthropic的两条战线

Amodei不...
## 一、先搞清楚:这篇文章到底在讲什么?

翁家翌(Jiayi Weng),OpenAI 后训练阶段 RL 基础设施的核心工程师之一,2022 年加入 OpenAI 时面试官是 John Schulman。他在业余时间维护 EnvPool(一个高性能强化学习环境库)时,遇到了一个朴素的问题:

> "能不能写一些便宜、可复现、比随机强很多的 heuristic,专门把环境跑到有信息量的状态?"
...
# Heuristic Learning 到底在说什么

我先从一个具体的画面开始。

想象你在教一个小孩打砖块(Breakout)。不是用神经网络——那东西像个黑盒子,你调了成千上万个旋钮,最后它"学会"了,但你不知道它怎么学会的。不,你是手把手教:球在左边,挡板往左;球快到底了,提前预判落点;球卡在一个循环里来回弹,你要故意偏移一点打破它。

这些规则写成代码,一行一行,人能看懂。小孩——不,...