COFFAIL: A Dataset of Successful and Anomalous Robot Skill Executions in the Context of Coffee Preparation Alex Mitrevski, Ayush Salunke 等 | arXiv: 2604.18126 | 2026
一个被忽视的数据缺口
假设你在训练一个机器人泡咖啡。
它学会了拿起杯子、按下咖啡机的按钮、等待萃取完成、把杯子递给你。一切顺利,成功率 95%。
但那 5% 的失败呢?杯子滑落了、按钮按错了位置、咖啡洒了、把手放反了——这些"异常"情况,你的训练数据里有吗?
大概率没有。
这就是机器人学习领域一个普遍存在的问题:现有数据集几乎只包含成功的执行记录。失败的、异常的、部分完成的执行——这些对训练鲁棒系统至关重要的数据——严重缺失。
COFFAIL:成功和失败都记录
COFFAIL(Coffee Failure)数据集填补了这个缺口。它记录了 Jessie 机器人在咖啡制备场景中执行七种不同技能的过程,同时包含成功和异常的执行记录。
七种技能包括:拿起杯子、操作咖啡机、加入牛奶、搅拌、递送杯子等——覆盖了泡一杯咖啡的完整流程。
数据集的独特之处在于:
- 异常多样性:不只是"失败了",而是记录了各种不同类型的失败——抓取滑落、放置偏移、操作顺序错误、力度过大/过小等
- 真实物理交互:不是仿真数据,而是真实机器人在真实环境中执行的真实记录
- 完整 episode:每个记录包含从开始到结束的完整执行过程,包括成功和失败的时刻
为什么失败数据如此重要?
从机器学习的角度看,只训练成功数据有几个严重问题:
分布偏移:真实部署中,异常情况不可避免。如果模型从未见过失败,它就不知道如何从失败中恢复,甚至不知道自己已经失败了。
脆弱性:只在"理想条件"下训练的模型,对噪声、干扰、微小偏差极其敏感。一个成功的泡咖啡动作,可能因为杯子位置偏了 1 厘米就完全失败。
安全风险:在真实世界中操作的机器人,如果不知道什么是"异常",就无法触发安全机制。识别异常是安全系统的第一步。
COFFAIL 的价值在于,它让研究者可以:
- 训练异常检测模型,让机器人知道"什么时候不对劲了"
- 训练恢复策略,让机器人从失败中"自救"
- 评估模型的鲁棒性,而不只是看成功率
我的思考
这篇论文虽然短小(作者自己说"short paper"),但提出了一个非常重要的观点:在机器人学习中,我们不应该只关注成功,而应该系统地收集和分析失败。
这让我想到航空安全领域的做法。飞机的黑匣子记录所有飞行数据,包括事故和险情。航空业的安全进步,很大程度上来自于对"失败案例"的深入分析,而不是对"成功飞行"的重复训练。
机器人学习也应该如此。COFFAIL 虽然只是一个咖啡制备场景的数据集,但它代表了一种方法论:系统性地记录、分类和学习失败,是构建鲁棒机器人系统的必经之路。
而且说实话,一个叫 COFFAIL 的数据集,本身就很有趣——谁不想看看机器人泡咖啡失败时是什么样子呢?
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。