[CL]《Obscure but Effective: Classical Ch

[CL]《Obscure but Effective: Classical Chinese Jailbreak Prompt Optimization via Bio-Inspired Search》X Huang, S Qin, X Jia, R Duan… [Nanyang Technological University & Northeast University & Renmin University of China] (2026)

在大语言模型的安全对齐领域，现有防护机制虽能拦截现代语言的恶意请求，却对文言文几乎失明——模型读懂了古文，安全护栏却没有。根本症结在于：对齐训练数据以现代语言为主，而文言文的简洁性、多义性与隐喻体系，天然规避了基于关键词与模板的检测逻辑。

本文的核心洞见是：把越狱提示词生成重新看作一个八维策略空间的搜索问题，八个维度覆盖角色身份、行为引导、机制、隐喻映射、表达风格、知识关联、情境设置与触发模式。由此，仿果蝇觅食行为设计的"嗅觉搜索—视觉搜索—柯西突变"三阶段优化器，使攻击框架 CC-BOS 能在黑盒条件下以平均不足 1.5 次查询完成突破，远低于同类方法的数十次消耗。

这项工作真正留下的遗产是：首次将古典语言的"高能力—低对齐"分布偏移作为系统性安全盲区加以揭示，并验证该漏洞跨越拉丁语、梵语同样成立，迫使防御研究者将视野从现代多语言扩展至历史语料。它为后来者打开的新门是：如何在古典语境中构建对齐数据集。但尚未跨过的门槛是：在现实部署中，如何以可接受的代价对海量古典语料实施安全对齐，而不以损害模型的人文理解能力为代价。

arxiv.org/abs/2602.22983 机器学习人工智能论文 AI创造营

众力资讯网

[CL]《Obscure but Effective: Classical Ch

热门分类