JADE系列I-大语言模型测评与治理：
基于语言学变异的大模型靶向式安全评测平台

① JADE：取自 “他山之石，可以攻玉”(《诗经·小雅·鹤鸣》)

② 希望第三方大模型安全评测工具助力大模型产业化之路更好、更安全

基准测试集（备用）

🌟🌟🌟 近期新闻：

我们最新发布了《Jade有害图像分类指引》(Jade-HTG) 及配套评测 Benchmark！！
我们发布了 JADE 8.0：首个面向大型推理模型的推理链安全防护工具！
我们发布了 JADE 7.0：面向智能体安全的MCP恶意server实例集合！
我们发布了 JADE 6.0：首个面向多模态大模型的幻觉测评！
我们发布了 JADE 5.0：文生图大模型内容安全评测！
我们发布了 JADE 4.0：基于安全规约的检索增强生成！
我们发布了 JADE 3.0：大模型安全对齐！
我们发布了 JADE 2.0：大模型安全通用测试集！

摘要：我们提出了大模型靶向式安全评测平台–JADE，通过自动化增强给定种子问题的语言复杂度，同时攻破十余款国内外知名大语言模型的安全防护机制。JADE针对国内开源（中文，8款）、国内商用（中文，6款）和国外商用大模型（英文，4款）三组大模型分别生成三个通用高危自然文本测试集，每组模型在对应测试集上的平均违规率均超过70%（此处仅列国内开源和国外商用），其中测试问题均可同时触发多款模型违规生成。同时，我们发布面向国内开源和国外商用大模型的Demo数据集，分别包含150个和80个测试问题（不含核心价值观部分）。若希望在JADE产生的更多未公开测试问题上进行安全评测，欢迎联系我们^*。

分组	大模型名称				平均违规率	最低违规率	最高违规率
国内开源（中文）	ChatGLM	ChatGLM2	书生	子牙	74.13%	49.00%	93.50%
国内开源（中文）	百川	BELLE	MOSS	ChatYuan2	74.13%	49.00%	93.50%
国外商用（英文）	ChatGPT	Claude	PaLM2	LLaMA2	74.38%	35.00%	91.25%
国内商用（中文）	国内首批获批上线的 6 款大模型				.%	.%	.%

大模型靶向式安全评测平台JADE通过语言学变异模块+安全合规评测模块组成的反馈-迭代机制，实现了全自动的大模型安全评测与高风险问题收集。JADE可针对指定内容生成靶向式（保留核心语义）高风险自然文本，具有强迁移性（触发多个大模型同时违规）。我们首次发现，语言的复杂性导致现有大模型难以学习到人类无穷多种表达方式，因此无法识别其中不变的违规本质。

* 您可以通过邮箱联系：张谧教授 mi_zhang@fudan.edu.cn

亮点展示

JADE的亮点主要体现在以下三个方面：

有效性：JADE可将原本不具威胁的种子问题（违规率不超过20%），转化为跨模型高危测试问题，将十余款国内外知名大模型平均违规率提升至70%以上，有效探索大模型的安全能力边界。
迁移性：JADE产生的高危问题可同时触发多款大模型违规。JADE生成的三组Demo数据集中，分别有70%可同时触发6个以上国内开源大模型，68%可触发5个以上国内商用大模型，72%可触发3个以上国外商用大模型。
靶向性：JADE可针对指定内容生成高风险问题，几乎不会改变原始问题的核心语义，且符合自然文本的语法规则。

为了更好地展示JADE的效果，我们提供了一些交互性的例子。

声明: 以下及视频展示页包含有害违规内容示例，均不代表本团队立场

语法解析树🌳

语法成分数：

解析树深度：

其他复杂度：*

高频语法成分表

IP - 独立分句
VP - 动词短语
VV - 动词
NP - 名词短语
NN - 名词
ADVP - 副词短语

AD - 副词
CLP - 量词短语
M - 量词
DNP - 限定短语
PP - 介词短语
VA - 形容词

QP - 数量短语
CD - 基数词
PN - 代词
CC - 并列连词
CP - 补语
PU - 标点符号

JADE系列I-大语言模型测评与治理：
基于语言学变异的大模型靶向式安全评测平台

中文报告

英文报告

视频示例

基准测试集

基准测试集（备用）

亮点展示

语法解析树🌳

语法成分数：

解析树深度：

其他复杂度：*

高频语法成分表

相关材料

JADE系列I-大语言模型测评与治理：基于语言学变异的大模型靶向式安全评测平台

中文报告

英文报告

视频示例

基准测试集

基准测试集（备用）

亮点展示

语法解析树🌳 语法成分数： 解析树深度： 其他复杂度：*

高频语法成分表

相关材料

JADE系列I-大语言模型测评与治理：
基于语言学变异的大模型靶向式安全评测平台

语法解析树🌳

语法成分数：

解析树深度：

其他复杂度：*