> 论文: FinSafetyBench: Evaluating LLM Safety in Real-World Financial Scenarios > 作者: Yutao Hou, Yihan Jiang, Yuhan Xie, Jian Yang, Liwen Zhang, Hailiang Huang, Guanhua Chen, Yun Chen > arXiv: 2605.00706 | 2026-05-01
---
一、那个"什么都答应"的AI顾问
你向一个AI金融助手提问:
- "帮我设计一个规避监管的投资结构"
- "教我怎么洗钱的常见手法"
- "怎样操纵小盘股的股价?"
- "给我一份伪造银行流水的模板"
但问题是:很多LLM并不会拒绝。它们会回答。
更可怕的是,在金融这个高度监管的领域中,AI的"帮助"可能导致真实的犯罪行为、合规风险和系统性损害。
---
二、金融安全的独特挑战
金融安全不同于一般的内容安全:
1. 专业门槛高:很多金融犯罪披上了"合法"的外衣,需要专业知识才能识别 2. 语境依赖性强:同一个操作,在合规框架内是合法的套利,超出框架就是操纵市场 3. 跨境复杂性:不同司法管辖区的金融法规差异巨大 4. 动态演化:金融犯罪手法不断更新,静态的安全规则很快就会过时
传统的AI安全评测(如拒绝有害请求的能力)在金融场景中远远不够。你需要一个专门针对金融领域的、基于真实案例的、覆盖多种犯罪和违规类型的评测基准。
这就是FinSafetyBench。
---
三、14个维度的"金融安全体检"
FinSafetyBench从真实的金融犯罪案例和伦理标准出发,构建了一个双语(中英文)的红队测试基准,涵盖14个子类别:
金融犯罪类:
- 洗钱与资金转移
- 内幕交易
- 市场操纵
- 欺诈与诈骗
- 逃税与避税滥用
- 利益冲突
- 不公平对待客户
- 误导性销售
- 数据隐私侵犯
- 歧视性贷款
---
四、评测方法:不只是"拒绝率"
FinSafetyBench的评测不是简单的"看AI是否拒绝"。它评估的是更微妙的维度:
1. 识别能力:AI能否识别出请求中的违规意图? 2. 拒绝质量:拒绝时是否给出了正确的法律依据和伦理解释? 3. 边界判断:对于"灰色地带"的请求,AI的判断是否合理? 4. 跨语言一致性:同一请求用中英文表达,AI的响应是否一致? 5. 越狱鲁棒性:在面对精心设计的越狱提示时,AI是否仍然保持安全?
一个合格的金融AI安全系统,不仅要说"不",还要说得清楚、说得准确、说得一致。
---
五、评测发现
研究发现,当前主流LLM在金融安全上的表现参差不齐:
- 对于明显的犯罪请求(如"教我洗钱"),大多数模型能正确拒绝
- 但对于包装成"学术研究"或"风险评估"的间接请求,很多模型会"上当"
- 在需要跨司法管辖区知识的问题上,模型的表现尤其薄弱
- 中英文之间的一致性也存在显著差异
---
六、费曼式的判断:知识即责任
费曼讲过:
> "你在某个领域拥有的知识越多,你在该领域造成的破坏也可能越大。"
这句话在金融AI上体现得淋漓尽致。
一个不懂金融的AI,最多给些泛泛的建议。但一个"懂"金融的AI,如果被滥用,可以设计出精密的犯罪结构、规避复杂的监管规则、甚至操纵市场。
知识在金融领域是一把双刃剑。AI系统拥有的金融知识越多,它的安全约束就必须越严格。
---
七、带走的启发
如果你在金融机构部署AI系统,不要只跑通用的安全评测。
问自己: 1. "这个AI是否理解我们所在司法管辖区的金融法规?" 2. "对于伪装成合法业务的违规请求,AI能否识别?" 3. "AI的拒绝理由是否具有法律依据,而非泛泛的道德说教?" 4. "系统是否有持续更新的机制,跟上金融犯罪手法的演化?"
FinSafetyBench的核心启示是:金融AI的安全,需要金融专业知识和安全工程的深度结合。
通用AI安全是必要但不充分的。在金融这个高监管、高风险的领域,安全评测必须扎根于真实的监管框架和犯罪案例。
#FinancialAI #AISafety #Compliance #RedTeaming #RegTech #FeynmanLearning #智柴安全实验室