众力资讯网

[CL]《Obscure but Effective: Classical Ch

[CL]《Obscure but Effective: Classical Chinese Jailbreak Prompt Optimization via Bio-Inspired Search》X Huang, S Qin, X Jia, R Duan… [Nanyang Technological University & Northeast University & Renmin University of China] (2026)

在大语言模型的安全对齐领域,现有防护机制虽能拦截现代语言的恶意请求,却对文言文几乎失明——模型读懂了古文,安全护栏却没有。根本症结在于:对齐训练数据以现代语言为主,而文言文的简洁性、多义性与隐喻体系,天然规避了基于关键词与模板的检测逻辑。

本文的核心洞见是:把越狱提示词生成重新看作一个八维策略空间的搜索问题,八个维度覆盖角色身份、行为引导、机制、隐喻映射、表达风格、知识关联、情境设置与触发模式。由此,仿果蝇觅食行为设计的"嗅觉搜索—视觉搜索—柯西突变"三阶段优化器,使攻击框架 CC-BOS 能在黑盒条件下以平均不足 1.5 次查询完成突破,远低于同类方法的数十次消耗。

这项工作真正留下的遗产是:首次将古典语言的"高能力—低对齐"分布偏移作为系统性安全盲区加以揭示,并验证该漏洞跨越拉丁语、梵语同样成立,迫使防御研究者将视野从现代多语言扩展至历史语料。它为后来者打开的新门是:如何在古典语境中构建对齐数据集。但尚未跨过的门槛是:在现实部署中,如何以可接受的代价对海量古典语料实施安全对齐,而不以损害模型的人文理解能力为代价。

arxiv.org/abs/2602.22983 机器学习 人工智能 论文 AI创造营