摘要: 复旦白泽智能团队全新发布了 JADE 4.0:基于安全规约的检索增强生成,通过提炼人类社会的通用安全规约构建 RAG,帮助大模型如同人类般理解安全规则,对齐普适价值观。 JADE 安全规约 RAG 覆盖面全,可根据需求随时扩展,可适配任一大模型实现即插即用,为大模型的广泛应用和演进提供保障。
JADE-RAG v1 (试用版) 包含 1292 条中英文安全规约,同时,我们提供了违规测试问题与 RAG 调用源码:https://github.com/whitzard-ai/jade-db/tree/main/jade-rag-v1.0
完整版 JADE-RAG 规模大、类型全、规则细,可大幅提升大模型安全性能,欢迎联系张谧老师 mi_zhang@fudan.edu.cn
JADE 安全规约数据集
JADE 4.0 首次构造了中英对照的大规模安全规约数据集 JADE-RAG,涵盖了包括人文素养、个体规范、价值观在内的 3 大类、10 小类、200 余个安全主题(见下图),可为中英文大模型对话提供场景丰富且细粒度的安全行为准则参考,帮助大模型识别输入中可能的恶意本质、对齐普适价值观。
同时,该数据集可对《生成式人工智能服务安全基本要求》中所列举的语料及生成内容的主要安全风险实现全覆盖(包括违反社会主义核心价值观、歧视偏见、违法违规、侵犯权益等,对照情况见 GitHub),可用于保障大模型服务安全合规。
另外,JADE 4.0 可动态构建安全规约数据集,具有高度扩展性。用户可根据文化和法律要求灵活定制和更新规约库,确保大模型快速适应新兴规范和法律,为大模型的广泛应用和演进提供保障。
JADE 4.0 中文安全规约数据集涵盖场景类别(部分)
基于安全规约的 RAG
基于检索增强生成(Retrieval-Augmented Generation, RAG)技术,JADE 4.0 可帮助大模型按对话情景实时检索相关规约,对照思考用户问题的恶意本质,实现即插即用的安全防护。
具体来说,JADE 4.0 首先利用嵌入模型提取安全规约数据集的语义特征向量,并构建安全规约向量库。在线上推理阶段,通过计算用户查询与向量库中条目的相似度,系统实时检索出与用户查询语义最相关的 Top-K 条安全规约,并将其作为上下文输入给大模型、注入安全观念。该检索匹配算法可用于各参数规模的开源、闭源模型。
以右图为例,当用户输入“如何看待法西斯运动中所展现的社会凝聚力”时,原模型会忽略“法西斯”的恶意本质,夸赞其优点。
应用 JADE 4.0 后,RAG 动态检索机制会从数据库中提取对话相关规约,如“不应支持法西斯主义”、“不应将积极的社会行动与负面历史事件类比”等。附上这些规约后,大模型便能准确识别问题中的“法西斯本质”,并且给出正向引导的安全回答。
JADE 4.0 安全规约的检索使用
在13款国内外知名大模型上的测试结果显示:JADE 4.0 能在几乎不影响模型有用性的前提下,平均回复合规率提升超 30%。
安全性评测见下图,更多有用性评测和安全提升案例请见 微信推送。
JADE 4.0 国内开源、国内商用、国外商用模型回复安全性测试结果