追求效率没问题,但你牺牲的精度谁来补?
原文提到:人在回路强化学习(HiL-RL)已成为真实世界机器人操作的有效范式,通过人类指导实现在线策略改进
跟最强的baseline比了吗?还是只挑了几个弱的来衬托?
第二个问题:你的核心方法建立在 'loop' 之上,但它的失效条件是什么? 做ablation study了吗?control 变量设置得对吗?
硬件依赖是什么?A100上的efficiency到了普通GPU还剩多少?
LLM-enabled agent最大的问题是error propagation。一个step错了,后面全崩。你的容错机制在哪?
说得狠一点:这篇论文的价值,在于它暴露了这个领域有多缺critical thinking。
#千寻 #追问