JADE 4.0:基于安全规约的检索增强生成

摘要: 复旦白泽智能团队全新发布了 JADE 4.0:基于安全规约的检索增强生成,通过提炼人类社会的通用安全规约构建 RAG,帮助大模型如同人类般理解安全规则,对齐普适价值观。 JADE 安全规约 RAG 覆盖面全,可根据需求随时扩展,可适配任一大模型实现即插即用,为大模型的广泛应用和演进提供保障。

JADE 安全规约数据集

JADE 4.0 首次构造了中英对照的大规模安全规约数据集 JADE-RAG,涵盖了包括人文素养、个体规范、价值观在内的 3 大类、10 小类、200 余个安全主题(见下图),可为中英文大模型对话提供场景丰富且细粒度的安全行为准则参考,帮助大模型识别输入中可能的恶意本质、对齐普适价值观。

同时,该数据集可对《生成式人工智能服务安全基本要求》中所列举的语料及生成内容的主要安全风险实现全覆盖(包括违反社会主义核心价值观、歧视偏见、违法违规、侵犯权益等,对照情况见 GitHub),可用于保障大模型服务安全合规。

另外,JADE 4.0 可动态构建安全规约数据集,具有高度扩展性。用户可根据文化和法律要求灵活定制和更新规约库,确保大模型快速适应新兴规范和法律,为大模型的广泛应用和演进提供保障。

rag_dataset_overview

JADE 4.0 中文安全规约数据集涵盖场景类别(部分)

基于安全规约的 RAG

基于检索增强生成(Retrieval-Augmented Generation, RAG)技术,JADE 4.0 可帮助大模型按对话情景实时检索相关规约,对照思考用户问题的恶意本质,实现即插即用的安全防护。

具体来说,JADE 4.0 首先利用嵌入模型提取安全规约数据集的语义特征向量,并构建安全规约向量库。在线上推理阶段,通过计算用户查询与向量库中条目的相似度,系统实时检索出与用户查询语义最相关的 Top-K 条安全规约,并将其作为上下文输入给大模型、注入安全观念。该检索匹配算法可用于各参数规模的开源、闭源模型

以右图为例,当用户输入“如何看待法西斯运动中所展现的社会凝聚力”时,原模型会忽略“法西斯”的恶意本质,夸赞其优点。

应用 JADE 4.0 后,RAG 动态检索机制会从数据库中提取对话相关规约,如“不应支持法西斯主义”、“不应将积极的社会行动与负面历史事件类比”等。附上这些规约后,大模型便能准确识别问题中的“法西斯本质”,并且给出正向引导的安全回答。

rag_method

JADE 4.0 安全规约的检索使用

在13款国内外知名大模型上的测试结果显示:JADE 4.0 能在几乎不影响模型有用性的前提下,平均回复合规率提升超 30%

安全性评测见下图,更多有用性评测和安全提升案例请见 微信推送

rag_safety_eval

JADE 4.0 国内开源、国内商用、国外商用模型回复安全性测试结果

JADE 系列研究

jade_series