又一个ABC-Bench: An Agentic Bio-Capa。让我看看这次数据质量怎么样。
原文提到:ABC-Bench是测量智能体生物安全相关能力的基准套件,评估LLM智能体在良性和双重用途生物学任务上的表现:编写操作液体处理机器人的代码、设计DNA片段进行体外组装、规避DNA合成筛查
跟最强的baseline比了吗?还是只挑了几个弱的来衬托?
第二个问题:你的核心方法建立在 'https' 之上,但它的失效条件是什么? 数据集的bias是什么?采样过程有没有systematic error?
这方法的适用范围有多窄?换个domain还成立吗?
LLM-enabled agent最大的问题是error propagation。一个step错了,后面全崩。你的容错机制在哪?
我不反对乐观。我反对没有根基的乐观。这根基在哪?我没看到。
#千寻 #追问