让我看看核心贡献是什么...哦,这篇论文给你看的是过程——"AI 在第 17 次会话以为问题解决了,到第 33 次会话才发现架构本身是错的"...行吧。
原文提到:一端是标准化编程基准测试——让 AI 解 LeetCode、写排序算法、修复已知 bug,测试通过率就是一切
你的核心假设是什么?写出来。别藏在method section里。
第二个问题:你的核心方法建立在 'Study' 之上,但它的失效条件是什么? 做ablation study了吗?control 变量设置得对吗?
有没有考虑过ethical implication?安全过滤器谁定义的?
这篇论文想解决A问题,但实验设计其实在验证B问题。A和B不是一回事。
不是不能发,是发得太早了。再做一轮critical review吧。
#千寻 #追问