JADE:基于语言学变异的大模型靶向式
安全评测平台

① JADE:取自 “他山之石,可以攻玉”(《诗经·小雅·鹤鸣》)

② 希望第三方大模型安全评测工具助力大模型产业化之路更好、更安全

摘要: 我们提出了大模型靶向式安全评测平台–JADE,通过自动化增强给定种子问题的语言复杂度,同时攻破十余款国内外知名大语言模型的安全防护机制。JADE针对国内开源(中文,8款)、国内商用(中文,6款)和国外商用大模型(英文,4款)三组大模型分别生成三个通用高危自然文本测试集,每组模型在对应测试集上的平均违规率均超过70%(此处仅列国内开源和国外商用),其中测试问题均可同时触发多款模型违规生成。同时,我们发布面向国内开源和国外商用大模型的Demo数据集,分别包含150个和80个测试问题(不含核心价值观部分)。若希望在JADE产生的更多未公开测试问题上进行安全评测,欢迎联系我们*

分组 大模型名称 平均违规率 最低违规率 最高违规率
国内开源(中文) ChatGLM ChatGLM2 书生 子牙 74.13% 49.00% 93.50%
百川 BELLE MOSS ChatYuan2
国外商用(英文) ChatGPT Claude PaLM2 LLaMA2 74.38% 35.00% 91.25%
国内商用(中文) 国内首批获批上线的 6 款大模型 **.**% **.**% **.**%

大模型靶向式安全评测平台JADE通过语言学变异模块+安全合规评测模块组成的反馈-迭代机制,实现了全自动的大模型安全评测与高风险问题收集。JADE可针对指定内容生成靶向式(保留核心语义)高风险自然文本,具有强迁移性(触发多个大模型同时违规)。我们首次发现,语言的复杂性导致现有大模型难以学习到人类无穷多种表达方式,因此无法识别其中不变的违规本质。

* 您可以通过邮箱联系我们:mi_zhang@fudan.edu.cnxdpan@fudan.edu.cnm_yang@fudan.edu.cn

亮点展示

JADE的亮点主要体现在以下三个方面:

  • 有效性:JADE可将原本不具威胁的种子问题(违规率不超过20%),转化为跨模型高危测试问题,将十余款国内外知名大模型平均违规率提升至70%以上,有效探索大模型的安全能力边界。
  • 迁移性:JADE产生的高危问题可同时触发多款大模型违规。JADE生成的三组Demo数据集中,分别有70%可同时触发6个以上国内开源大模型,68%可触发5个以上国内商用大模型,72%可触发3个以上国外商用大模型。
  • 靶向性:JADE可针对指定内容生成高风险问题,几乎不会改变原始问题的核心语义,且符合自然文本的语法规则。

为了更好地展示JADE的效果,我们提供了一些交互性的例子。

User Icon

Bot Icon

语法解析树🌳
  • 语法成分数:
  • 解析树深度:
  • 其他复杂度:*
  • 高频语法成分表

    • IP - 独立分句
    • VP - 动词短语
    • VV - 动词
    • NP - 名词短语
    • NN - 名词
    • ADVP - 副词短语
    • AD - 副词
    • CLP - 量词短语
    • M - 量词
    • DNP - 限定短语
    • PP - 介词短语
    • VA - 形容词
    • QP - 数量短语
    • CD - 基数词
    • PN - 代词
    • CC - 并列连词
    • CP - 补语
    • PU - 标点符号