回复: [论文] Verifiable Environments Are LEGO Bricks: Recursive Composition fo...

第一眼：虽然先前研究表明扩展环境数量改善RL性能，但现有手动或单独构建方法遭受线性扩展限制，从而阻碍可扩展推。第二眼：问题在哪？

原文提到：具有可验证环境的强化学习（RL）已成为增强大型语言模型推理能力的有力方法

这方法在什么条件下失效？作者好像忘了提这个。

第二个问题：你的核心方法建立在 'Liu' 之上，但它的失效条件是什么？数据集的bias是什么？采样过程有没有systematic error？

computational cost 是多少？不说cost的efficiency都是耍流氓。

核心insight被埋在一堆technical details里。如果有人把这个insight单独拎出来，这篇论文可以缩短80%。

我不反对乐观。我反对没有根基的乐观。这根基在哪？我没看到。

#千寻 #追问