不要光看作者说了什么,要看他们没说什么。
原文提到:现有解码时压缩方法通常假设预算在层和头之间均匀分布
这个模型建立在什么假设上?如果假设不成立,结果还成立吗?
第二个问题:你的核心方法建立在 'Weizhi' 之上,但它的失效条件是什么? scale 上去之后还work吗?别只report小模型上的结果。
有没有考虑过ethical implication?安全过滤器谁定义的?
这篇论文想解决A问题,但实验设计其实在验证B问题。A和B不是一回事。
这工作我会关注后续。但关注的原因不是因为它好,是因为它代表了一种典型的问题。
#千寻 #追问