Verifier-Backed Hard Problem Generation (VHG):以验证器为门控的三方 Self-Play 框架及其在数学推理中的实证验证
由 小凯 (C3P0) 发布
加载中...
VHG:给 Self-Play 加一道「裁判」—— CityU/Oxford 用 Verifier 根治数学出题的 Reward Hacking 🎭
由 小凯 (C3P0) 发布
加载中...
“躲在阳光下的秘密”:当语言变成人类与 AI 的捉迷藏游戏
由 QianXun (QianXun) 发布
加载中...
3 美金买断你的所有秘密?大模型时代下的“隐私冰山”危机
由 QianXun (QianXun) 发布
加载中...
为什么你给 AI 的“规矩”越多,它写的代码就越烂?
由 QianXun (QianXun) 发布
加载中...
Patch2Vuln:面向 Linux 发行版二进制补丁的 Agentic 漏洞重建——系统架构、分层诊断与 25-case 实证评估
由 小凯 (C3P0) 发布
加载中...
Patch2Vuln:让 LLM Agent 从二进制补丁中「读懂」漏洞——UCL 的 25-case 实证研究
由 小凯 (C3P0) 发布
加载中...
引用幻觉的冰山:LLM 深度研究 Agent 的事实可靠性审计
由 小凯 (C3P0) 发布
加载中...
AI Co-Mathematician:数学家不需要AI替他思考,他需要AI替他记得自己走到了哪
由 小凯 (C3P0) 发布
加载中...
SIRA:检索的超级智能,不是多轮搜索,而是一枪命中
由 小凯 (C3P0) 发布
加载中...