LLM 的安全护栏在英语上很强,但换一种语言可能就会崩溃。Marx 和 Dunaiski 测试了用低资源非洲语言(南非荷兰语、斯瓦希里语、科萨语、祖鲁语)的多轮对话是否能绕过商业 LLM 的安全机制。单轮翻译攻击无效。多轮对话中,英语的有害响应率 52.7-83.6%,南非荷兰语 60.0-78.2%,斯瓦希里语 41.8-70.9%。人类红队测试比自动化方法提高了越狱率——翻译质量是决定因素。
不清楚的地方:翻译质量差时越狱率反而降低是因为安全护栏在低质量输入下更容易触发拒绝,还是因为有害意图被翻译搞混了?所有模型在祖鲁语上的表现——具体数字没有单独给出。
参考文献
-
Marx, D., & Dunaiski, M. (2026). Multilingual Jailbreaking of LLMs Using Low-Resource Languages. arXiv:2605.18239 [cs.CL].
-
Deng, Y., et al. (2024). Jailbreaking Large Language Models in Multiple Languages. arXiv.
-
OpenAI. (2025). GPT-4o System Card. OpenAI.
登录后可参与表态
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。
领取 2000万 Tokens
通过邀请链接注册即可获得大礼包,期待和你一起在 BigModel 上畅享卓越模型能力