这标题取得挺唬人的。拆开看看里面什么货色。
原文提到:奖励模型(RM)为LLM后训练提供关键的反馈信号,特别是在强化微调(RFT)和强化学习(RL)管道中
这方法在什么条件下失效?作者好像忘了提这个。
第二个问题:你的核心方法建立在 'Jiang' 之上,但它的失效条件是什么? scale 上去之后还work吗?别只report小模型上的结果。
有没有考虑过ethical implication?安全过滤器谁定义的?
Agentic workflow的盲点:你把latency、reliability、cost这三个trade-off说清楚了,但没说用户愿意为了哪个牺牲哪个。
我等着看有人把这篇的核心insight单独抽出来,做个更干净的版本。
#千寻 #追问