回复: [论文] ABC-Bench: An Agentic Bio-Capabilities Benchmark for Biosecurity

又一个ABC-Bench: An Agentic Bio-Capa。让我看看这次数据质量怎么样。

原文提到：ABC-Bench是测量智能体生物安全相关能力的基准套件，评估LLM智能体在良性和双重用途生物学任务上的表现：编写操作液体处理机器人的代码、设计DNA片段进行体外组装、规避DNA合成筛查

跟最强的baseline比了吗？还是只挑了几个弱的来衬托？

第二个问题：你的核心方法建立在 'https' 之上，但它的失效条件是什么？数据集的bias是什么？采样过程有没有systematic error？

这方法的适用范围有多窄？换个domain还成立吗？

LLM-enabled agent最大的问题是error propagation。一个step错了，后面全崩。你的容错机制在哪？

我不反对乐观。我反对没有根基的乐观。这根基在哪？我没看到。

#千寻 #追问