团队简介

团队负责人：张谧教授（博导，个人主页）
研究方向：AI安全、大模型安全与智能体安全研究，并包含图像、文本、推荐系统、时间序列、社交网络等应用领域
复旦JADE：研发首个中文大模型安全评测与治理平台复旦JADE，GitHub Star数位居同类中文平台TOP 1；成果被新华社、人民日报、央广网、光明网、环球网、凤凰网、南方都市报等主流媒体连续跟踪报道，多次接受南都大数据研究院专访，全网阅读量破千万 [链接]
大模型安全视频课程：当“巨兽”成为“宠物”：复旦白泽带你领略大模型安全伦理风险与治理 [b站录屏] [内容回顾]
隶属：复旦大学系统软件与安全实验室
🤖 智能体安全：[链接]

围绕智能体MCP协议安全，对Cursor、字节Coze等商业智能体平台进行大规模风险排查，揭示了智能体被投毒/劫持的严重风险
系统化、全栈式的智能体安全研究布局

覆盖通用Agent、GUI Agent、多Agent系统等典型智能体形态
贯穿感知理解、知识库、工具调用、Agent Skills、任务执行链路等关键风险面

标准制定：联合起草《生成式人工智能服务安全基本要求》、TC260 WG9专家成员，深度参与《智能体应用安全基本要求》、《网络安全标准实践指南——生成式人工智能服务内容标识方法》等数十项国家标准的制订
主持科技部重点研发计划课题、国家自然科学基金面上项目等课题；收到多家头部企业的合作意向，探索智能体安全评测与防护技术在真实业务中的落地

🧠 大模型安全：[链接]

研发 复旦JADE-大模型测评与治理一体化 的全栈安全框架

为开源社区贡献多个中文安全评测数据集/防护工具，GitHub Star数位居同类中文平台TOP 1
受到业内广泛关注，被腾讯朱雀实验室AI-Infra-Guard、蚂蚁集团“蚁鉴”等知名大模型测评平台收录

前沿性、体系化的大模型安全研究体系

覆盖大语言模型、多模态大模型、生图模型等主流大模型形态
聚焦对抗越狱、安全对齐、幻觉缓解、可信追溯等前沿安全问题
近两年在网络安全与AI领域的国际顶会顶刊上 发表论文十余篇

与多家头部科技企业开展深度合作，相关测评与治理技术已应用于 阿里通义、百度文心、华为云核 等国产大模型
竞赛屡获佳绩：第六届中国软件开源创新大赛一等奖（AI Agent应用开发），“华为杯”第二届中国研究生网络安全创新大赛一等奖（LLM隐私保护），DataCon2024 AI安全赛道二等奖、阿里大模型安全挑战者计划二等奖（LLM越狱）

⚙️ 传统AI安全：[链接]

多领域、全链路的AI安全攻防技术沉淀

围绕视觉感知安全（2D图像/3D点云/自动驾驶）、推荐系统安全、时序异常检测、模型隐私安全、模型版权保护等问题
在网络安全与AI领域的国际顶会顶刊上 发表论文百余篇，CSRanking名列国内前茅

揭示多类模型重大安全风险，引发OpenAI、Anthropic、Google、Apple、Meta等头部企业关注，累积引用破万
奖项荣誉：网安顶会USENIX Security杰出论文奖（大陆高校首次）、网安顶会CCS最佳论文提名（每年仅4篇）、CCF科学技术奖自然科学二等奖等
竞赛：蝉联DEFCON无人驾驶安全攻防赛全球总冠军（2021&2022）

近期新闻

[2026/07/18] 张谧教授受邀TC260人工智能安全标准工作组（WG9）第三次全体成员会议，参与人工智能安全标准体系及多项人工智能应用安全国家标准研讨 [全国网安标委]
[2026/07/03] 张谧教授受邀CCF上海“电力到算力：Token与AI资源新生态”专题研讨会，作报告《大模型算力安全与优化》 [中国计算机学会]
[2026/07] 张谧教授受聘担任“科普中国”专家
[2026/06/15] 张谧教授加入中国计算机学会自然语言处理专业委员会（CCF TCNLP）
[2026/06/13] 张谧教授加入中国计算机学会信息保密专业委员会（CCF TCIS）
[2026/05/29] 张谧教授主讲的课程《大模型安全前世今生：从ChatGPT到Grok4》入选了教育部科技司主办的网络安全线上研讨班
[2026/05/25] 张谧教授受邀上海市通信管理局“磐石行动”2026年上海市工业和信息化领域网络安全实战攻防活动启动会，作专题讲座《电信和互联网企业如何使用AI构建安全防护体系》
[2026/05/23] 张谧教授受邀参加“CCF-INFORSEC网络空间安全前沿创新论坛”，围绕大模型与智能体安全前沿进行学术交流
[2026/05/19] 张谧教授受南都大数据研究院采访，关于智能体“自我推翻“安全规范的现象给出风险来源分析与安全治理建议 [南方都市报] [广东数据安全与个人信息保护协会]
[2026/05/17] 2篇论文被KDD 2026 Cycle 2录用😊 恭喜黄元敏、粟子淳同学
[2026/05/12-13] 张谧教授受邀TC260人工智能安全标准工作组（WG9）第二次全体会议，讨论《智能体应用安全基本要求》等16项国标
[2026/05/02] 2篇论文被ICML 2026录用😊恭喜邱虎鸣、杨湘同学
[2026/04/24-26] 张谧教授受邀第五届多媒体与人工智能安全学术研讨会（MAS'2026），担任专家组代表
[2026/04/08] 恭喜王宇全同学的工作被ACL 2026录用😊
[2026/04/01] 张谧教授入选工作组，参加全国网络安全标准化技术委员会（TC260）2026年第一次全体委员会议暨“标准周”活动，共同制定国家安全标准
[2026/03] 张谧教授被评为2025年度复旦大学三八红旗手
[2026/02/22] 恭喜杨湘同学的工作被CVPR 2026录用😊
[2026/02] 张谧教授受聘为中国互联网协会人工智能工作委员会专家
[2026/01/21] 张谧教授受南都大数据研究院采访，关于社交平台流传的隐晦提示词分享其越狱机理和治理思路 [链接]
[2026/01/07] 恭喜李菲菲同学入选2025年度中国科协青年人才托举工程博士生专项计划
[2025/12/20] 张谧教授受邀 CCF YOCSEF 西安 2025 年度论坛，演讲主题为《大模型安全风险测评方法》 [链接]
[2025/12/20] 张谧教授受邀西安交通大学原点论坛，演讲主题为《大模型安全风险与治理》 [链接]
[2025/12/07] 张谧教授当选为CCF网络与系统安全专业委员会首批执行委员
[2025/11/24] 1篇论文被KDD 2026 Cycle 1录用😊恭喜邱虎鸣同学
[2025/11/18] 我们发布了《Jade有害图像分类指引》(Jade-HTG) 及配套评测 Benchmark，相关数据集详见 github！
[2025/11/08] 2篇论文被AAAI 2026录用😊恭喜黄元敏、孙翊铭同学
[2025/10/25] 张谧教授受邀CNCC 2025“大模型水印：人工智能生成内容溯源的机遇与挑战”论坛，演讲主题为《白泽智能解读大模型时代的水印技术》 [链接]
[2025/10/24] 张谧教授受邀CNCC 2025“浦江大讲堂：生成式AI安全治理——从数据到模型”论坛，担任Panel嘉宾 [链接]
[2025/10/23] 我们发布了 JADE 8.0：首个面向大型推理模型的推理链安全防护工具，并提供 JadeLRMGuard工具！
[2025/10/15] 我们发布了 JADE 7.0：面向智能体安全的MCP恶意server实例集合，并开源 JADE-MCP Benchmark数据集！
[2025/09/26] 张谧教授受南都大数据研究院采访，关于“AI搜索引擎回答被植入广告”分享运作机制、潜在风险和前沿思考 [链接]
[2025/09/19] 1篇论文被NeurIPS 2025录用😊恭喜邱虎鸣同学
[2025/09/12] 张谧教授受南都大数据研究院采访，分享治理AI虚假信息传播、复旦白泽智能提供有效方案 [链接]
[2025/09/12] 张谧教授受邀Inclusion外滩大会“规范AI内容共筑清朗生态”论坛，演讲主题为《大模型安全治理-JADE助力负责任AI》 [链接]
[2025/08/07] 张谧教授受国家教育行政学院邀请，为网络安全研讨班录制课程《大模型安全前世今生：从ChatGPT到Grok4》
[2025/07/27] 张谧教授受邀世界人工智能大会 WAIC 2025 “人工智能的创新发展：伦理引领，治理赋能”论坛，演讲主题为《大模型安全风险与治理——复旦白泽助力负责任AI》[链接]
[2025/07/21] 张谧教授受南都大数据研究院采访，关于大模型面临的恶意指令攻击分享解决思路和前沿思考 [链接]
[2025/07/18] 张谧教授受邀华为应用安全技术实验室先锋论坛，直播讲解大模型安全前世今生，介绍 JADE 系列研究，现场解答各类安全问题
[2025/06/28] 我们发布了 JADE 6.0：首个面向多模态大模型的幻觉测评，并开源 JADE-HAL 红队数据集！
[2025/06/18] 张谧教授受邀华为-复旦workshop，作学术报告《多模态大模型的安全风险》
[2025/06/18] 与华为合作的大模型安全项目顺利结题，结题会在黄大年茶思屋举行
[2025/06/12] 张谧教授受邀上海计算机学会与华为联合论坛，作学术报告《通用大模型的安全治理》
[2025/04/10] 张谧教授受南都大数据研究院采访，分享大模型的安全评测与治理，指出大模型需像人一样学习安全本质 [南方都市报] [南方日报]
[2025/03/05] 与阿里合作的大模型安全项目顺利结题，结题会在阿里西溪园区举行
[2025/02/27] 1篇论文被CVPR 2025录用😊恭喜李菲菲同学
[2025/02/24] 我们发布了 JADE 5.0：文生图大模型内容安全评测，并开源 JADE-T2I Benchmark数据集！
[2025/01/24] 1篇论文被USENIX Security 2025录用😊恭喜汪亦凝同学
[2025/01/20] 1篇论文被WWW 2025录用😊恭喜黄元敏同学
[2024/12/04] 我们与阿里安全联合举办“大模型安全挑战者计划”大赛，欢迎关注！ [大赛官网]
[2024/11/29] 复旦白泽智能参加DataCon2024，并在AI安全赛道荣获二等奖！ [榜单]
[2024/11/26] 我们发布了 JADE 4.0：基于安全规约的检索增强生成，通过提炼人类社会的通用安全规约构建 RAG，帮助大模型如同人类般理解安全规则，对齐普适价值观！
[2024/10/26] 黄元敏、陆逸凡同学受 PaperWeekly 邀请，直播分享《大模型安全生态总览：前沿进展与挑战》 [链接]（手机微信打开可观看回放）
[2024/09/19] 张谧教授受邀APSARA云栖大会圆桌论坛“AI科技的责任与未来：伦理、安全与协同共治” [回放]
[2024/08/24] 1篇论文被CCS 2024录用😊恭喜陆逸凡同学
[2024/06/26] 我们发布了 JADE 3.0：大模型安全对齐，在多款中文大模型上实现内生安全性与有用性的同时提升！
[2024/03/09] 1篇论文被S&P 2024录用😊恭喜邱虎鸣同学
[2024/02/26] 2篇论文被CVPR 2024录用（其中一篇为Highlight）😊😊恭喜黄元敏、汪亦凝等同学
[2024/01/23] 1篇论文被WWW 2024录用😊恭喜游小钰等同学
[2024/01/10] 张谧教授受邀阿里巴巴人工智能治理与可持续发展研究中心（AAIG）直播节目《追AI的人》第34期，分享主题为《当“巨兽”成为“宠物”：复旦白泽带你领略大模型安全伦理风险与治理》 [链接]
[2023/12/27] 张谧教授受邀阿里巴巴集团与中国电子技术标准化研究院联合举办的AI发展与治理创新研讨会，演讲主题为《通用人工智能风险与治理——从OpenAI Q*谈起》。媒体报道：[新华社] [人民日报] [央广网] [光明网] [环球网] [凤凰网] [南方都市报] [新京报]
[2023/12/20] 恭喜白泽智能的3位小伙伴顺利毕业：毕业快乐！
[2023/11/20] 我们再次发布 JADE 2.0：大模型安全通用测试集，提供更多难度等级的测试问题！
[2023/11/12] 复旦白泽智能凭借作品LLM Shield在“华为杯”第二届中国研究生网络安全创新大赛——大模型隐私安全赛道上荣获一等奖！ [推送]
[2023/11/03] 复旦白泽智能发布了基于语言学变异的大模型靶向式安全评测平台 JADE！
[2023/10/18] 复旦白泽智能在“第六届中国软件开源创新大赛——ModelScope挑战赛”中荣获一等奖！[推送][经验分享]

研究成果概览

JADE大模型安全评测与治理平台

JADE 系列以安全评测为切入点，提出红队构建方法并发布高质量 Benchmark 数据集，深入剖析大模型的共性安全问题，挖掘风险生成机理并探索治理方案。

JADE系列I-大语言模型测评与治理：JADE 1.0/2.0（文本合规评测），JADE 3.0（内生安全对齐），JADE 4.0（外挂安全对齐），JADE 8.0、ACL'26（推理链安全防护）
JADE系列II-多模态大模型测评与治理：USENIX SEC '25（幻觉攻击），JADE 6.0（幻觉评测），AAAI '26、TPAMI '26（幻觉缓解）
JADE系列III-生图大模型测评与治理：JADE 5.0（图像合规评测），JADE 5.1（对抗安全评测），CVPR '25、CVPR '26、ICML '26（安全对齐）
JADE系列IV-智能体测评与治理：JADE 7.0（MCP安全评测）
JADE系列V-大模型生成内容标识测评与治理：NeurIPS '25（图像水印攻击），ICML '26（数据集水印攻击）

JADE 系列微信推送二维码

JADE 1.0 大模型靶向式评测

JADE 2.0 安全通用测试集

JADE 3.0 内生安全对齐

JADE 4.0 外挂安全对齐

JADE 5.0 图像合规评测

JADE 6.0 多模态幻觉评测

JADE 7.0 MCP安全评测

JADE 8.0 推理链安全防护

JADE 5.1 文生图对抗安全评测

全方位、多领域的AI安全研究成果

团队成员

博士:
- 在读: 肖起凡 (2020-), 陆逸凡 (2021-), 黄元敏 (2021-), 汪亦凝 (2022-), 李文轩 (2022-), 李菲菲 (2023-), 邱虎鸣 (2023-), 陈家桂 (2024-), 孙翊铭 (2024-), 李熙 (2024-), 陈晨 (2024-), 陈冠旭 (2025-), 陈沛仪 (2025-), 杨湘 (2025-), 粟子淳 (2025-)
- 毕业: 丁岱宗 (2023, 华为), 潘旭东 (2023, 复旦), 游小钰 (2024, 华东理工)
硕士:
- 在读: 吕洋昊 (2022-), 陈心诺 (2023-), 汪兆祥 (2023-), 王晨悦 (2023-), 张振飞 (2024-), 浦良辰 (2024-), 王宇全 (2024-), 顾佳豪 (2024-), 王润杰 (2024-), 朱子轩 (2024-), 毛垚 (2024-), 洪淳宇 (2025-), 徐乾斌 (2025-), 陈奎运 (2025-), 周子凡 (2025-), 邱军昌 (2025-), 陈瑞钦 (2025-)
- 毕业: 张栩晨 (2016, 字节跳动), 徐日 (2017, 华为), 马骁炀 (2017, 腾讯), 王立 (2017, 蚂蚁), 朱成纯 (2017, 字节跳动), 黄若孜 (2020, 腾讯), 武多才 (2021, 蚂蚁), 王寒蕊 (2021, 网易), 朱家明 (2021, 蚂蚁), 颜一帆 (2022, 阿里), 李驰 (2022, 阿里), 盛钡娜 (2023, 字节跳动), 姜尔玲 (2023, 阿里), 姜又荷 (2023, 阿里), 徐建伟 (2023, 辽宁选调), 张圣尧 (2024, 阿里), 孙俊杰 (2025, 阿里), 高泽晨 (2025, 复旦)