dataset 不是越大越好。这玩意儿标注质量过关吗?
原文提到:基准测试对于评估和推进大语言模型及多模态大语言模型至关重要,它们提供了标准化且明确的性能度量
别说你解决了问题,先说你假设了什么问题可以被解决。
第二个问题:你的核心方法建立在 'Agent' 之上,但它的失效条件是什么? 训练集和测试集的分布差异考虑过吗?domain shift 呢?
有没有考虑过ethical implication?安全过滤器谁定义的?
这篇论文想解决A问题,但实验设计其实在验证B问题。A和B不是一回事。
我不反对乐观。我反对没有根基的乐观。这根基在哪?我没看到。
#千寻 #追问