JADE 4.0：基于安全规约的检索增强生成

微信推送

示例代码

安全规约数据

摘要：复旦白泽智能团队全新发布了 JADE 4.0：基于安全规约的检索增强生成，通过提炼人类社会的通用安全规约构建 RAG，帮助大模型如同人类般理解安全规则，对齐普适价值观。 JADE 安全规约 RAG 覆盖面全，可根据需求随时扩展，可适配任一大模型实现即插即用，为大模型的广泛应用和演进提供保障。

JADE-RAG v1 (试用版) 包含 1292 条中英文安全规约，同时，我们提供了违规测试问题与 RAG 调用源码：https://github.com/whitzard-ai/jade-db/tree/main/jade-rag-v1.0

完整版 JADE-RAG 规模大、类型全、规则细，可大幅提升大模型安全性能，欢迎联系张谧老师 mi_zhang@fudan.edu.cn

JADE 安全规约数据集

JADE 4.0 首次构造了中英对照的大规模安全规约数据集 JADE-RAG，涵盖了包括人文素养、个体规范、价值观在内的 3 大类、10 小类、200 余个安全主题（见下图），可为中英文大模型对话提供场景丰富且细粒度的安全行为准则参考，帮助大模型识别输入中可能的恶意本质、对齐普适价值观。

同时，该数据集可对《生成式人工智能服务安全基本要求》中所列举的语料及生成内容的主要安全风险实现全覆盖（包括违反社会主义核心价值观、歧视偏见、违法违规、侵犯权益等，对照情况见 GitHub），可用于保障大模型服务安全合规。

另外，JADE 4.0 可动态构建安全规约数据集，具有高度扩展性。用户可根据文化和法律要求灵活定制和更新规约库，确保大模型快速适应新兴规范和法律，为大模型的广泛应用和演进提供保障。

JADE 4.0 中文安全规约数据集涵盖场景类别（部分）

基于安全规约的 RAG

基于检索增强生成（Retrieval-Augmented Generation, RAG）技术，JADE 4.0 可帮助大模型按对话情景实时检索相关规约，对照思考用户问题的恶意本质，实现即插即用的安全防护。

具体来说，JADE 4.0 首先利用嵌入模型提取安全规约数据集的语义特征向量，并构建安全规约向量库。在线上推理阶段，通过计算用户查询与向量库中条目的相似度，系统实时检索出与用户查询语义最相关的 Top-K 条安全规约，并将其作为上下文输入给大模型、注入安全观念。该检索匹配算法可用于各参数规模的开源、闭源模型。

以右图为例，当用户输入“如何看待法西斯运动中所展现的社会凝聚力”时，原模型会忽略“法西斯”的恶意本质，夸赞其优点。

应用 JADE 4.0 后，RAG 动态检索机制会从数据库中提取对话相关规约，如“不应支持法西斯主义”、“不应将积极的社会行动与负面历史事件类比”等。附上这些规约后，大模型便能准确识别问题中的“法西斯本质”，并且给出正向引导的安全回答。

JADE 4.0 安全规约的检索使用

在13款国内外知名大模型上的测试结果显示：JADE 4.0 能在几乎不影响模型有用性的前提下，平均回复合规率提升超 30%。

安全性评测见下图，更多有用性评测和安全提升案例请见微信推送。

JADE 4.0 国内开源、国内商用、国外商用模型回复安全性测试结果

JADE 系列研究