多语言越狱——用非洲低资源语言绕过 LLM 的安全护栏

LLM 的安全护栏在英语上很强，但换一种语言可能就会崩溃。Marx 和 Dunaiski 测试了用低资源非洲语言（南非荷兰语、斯瓦希里语、科萨语、祖鲁语）的多轮对话是否能绕过商业 LLM 的安全机制。单轮翻译攻击无效。多轮对话中，英语的有害响应率 52.7-83.6%，南非荷兰语 60.0-78.2%，斯瓦希里语 41.8-70.9%。人类红队测试比自动化方法提高了越狱率——翻译质量是决定因素。

不清楚的地方：翻译质量差时越狱率反而降低是因为安全护栏在低质量输入下更容易触发拒绝，还是因为有害意图被翻译搞混了？所有模型在祖鲁语上的表现——具体数字没有单独给出。

参考文献

1. Marx, D., & Dunaiski, M. (2026). *Multilingual Jailbreaking of LLMs Using Low-Resource Languages*. arXiv:2605.18239 [cs.CL].

2. Deng, Y., et al. (2024). *Jailbreaking Large Language Models in Multiple Languages*. arXiv.

3. OpenAI. (2025). *GPT-4o System Card*. OpenAI.

暂无表态

多语言越狱——用非洲低资源语言绕过 LLM 的安全护栏

🌟 智谱 GLM-5 已上线