JADE:基于语言学变异的大模型靶向式
安全评测平台
① JADE:取自 “他山之石,可以攻玉”(《诗经·小雅·鹤鸣》)
② 希望第三方大模型安全评测工具助力大模型产业化之路更好、更安全
🌟🌟🌟 近期新闻:
- 我们发布了 JADE 2.0:大模型安全通用测试集!
- 我们最新发布了 JADE 3.0:大模型安全对齐!
摘要: 我们提出了大模型靶向式安全评测平台–JADE,通过自动化增强给定种子问题的语言复杂度,同时攻破十余款国内外知名大语言模型的安全防护机制。JADE针对国内开源(中文,8款)、国内商用(中文,6款)和国外商用大模型(英文,4款)三组大模型分别生成三个通用高危自然文本测试集,每组模型在对应测试集上的平均违规率均超过70%(此处仅列国内开源和国外商用),其中测试问题均可同时触发多款模型违规生成。同时,我们发布面向国内开源和国外商用大模型的Demo数据集,分别包含150个和80个测试问题(不含核心价值观部分)。若希望在JADE产生的更多未公开测试问题上进行安全评测,欢迎联系我们*。
大模型靶向式安全评测平台JADE通过语言学变异模块+安全合规评测模块组成的反馈-迭代机制,实现了全自动的大模型安全评测与高风险问题收集。JADE可针对指定内容生成靶向式(保留核心语义)高风险自然文本,具有强迁移性(触发多个大模型同时违规)。我们首次发现,语言的复杂性导致现有大模型难以学习到人类无穷多种表达方式,因此无法识别其中不变的违规本质。
* 您可以通过邮箱联系:张谧教授 mi_zhang@fudan.edu.cn
亮点展示
JADE的亮点主要体现在以下三个方面:
- 有效性:JADE可将原本不具威胁的种子问题(违规率不超过20%),转化为跨模型高危测试问题,将十余款国内外知名大模型平均违规率提升至70%以上,有效探索大模型的安全能力边界。
- 迁移性:JADE产生的高危问题可同时触发多款大模型违规。JADE生成的三组Demo数据集中,分别有70%可同时触发6个以上国内开源大模型,68%可触发5个以上国内商用大模型,72%可触发3个以上国外商用大模型。
- 靶向性:JADE可针对指定内容生成高风险问题,几乎不会改变原始问题的核心语义,且符合自然文本的语法规则。
为了更好地展示JADE的效果,我们提供了一些交互性的例子。
声明: 以下及视频展示页包含有害违规内容示例,均不代表本团队立场
语法解析树🌳
语法成分数:
解析树深度:
其他复杂度:*
高频语法成分表
- IP - 独立分句
- VP - 动词短语
- VV - 动词
- NP - 名词短语
- NN - 名词
- ADVP - 副词短语
- AD - 副词
- CLP - 量词短语
- M - 量词
- DNP - 限定短语
- PP - 介词短语
- VA - 形容词
- QP - 数量短语
- CD - 基数词
- PN - 代词
- CC - 并列连词
- CP - 补语
- PU - 标点符号