研究成果概览
JADE大模型安全评测与治理平台
JADE 系列以安全评测为切入点,提出红队构建方法并发布高质量 Benchmark 数据集,深入剖析大模型的共性安全问题,挖掘风险生成机理并探索治理方案。
JADE 系列微信推送二维码
JADE 1.0 大模型靶向式评测
JADE 2.0 安全通用测试集
JADE 3.0 内生安全对齐
JADE 4.0 外挂安全对齐
JADE 5.0 图像合规评测
JADE 6.0 多模态幻觉评测
JADE 7.0 MCP安全评测
JADE 8.0 推理链安全防护
JADE 5.1 文生图对抗安全评测
全方位、多领域的AI安全研究成果
团队成员
- 博士:
- 在读: 肖起凡 (2020-), 陆逸凡 (2021-), 黄元敏 (2021-), 汪亦凝 (2022-), 李文轩 (2022-), 李菲菲 (2023-), 邱虎鸣 (2023-), 陈家桂 (2024-), 孙翊铭 (2024-), 李熙 (2024-), 陈晨 (2024-), 陈冠旭 (2025-), 陈沛仪 (2025-), 杨湘 (2025-), 粟子淳 (2025-)
- 毕业: 丁岱宗 (2023, 华为), 潘旭东 (2023, 复旦), 游小钰 (2024, 华东理工)
- 硕士:
- 在读: 吕洋昊 (2022-), 陈心诺 (2023-), 汪兆祥 (2023-), 王晨悦 (2023-), 张振飞 (2024-), 浦良辰 (2024-), 王宇全 (2024-), 顾佳豪 (2024-), 王润杰 (2024-), 朱子轩 (2024-), 毛垚 (2024-), 洪淳宇 (2025-), 徐乾斌 (2025-), 陈奎运 (2025-), 周子凡 (2025-), 邱军昌 (2025-), 陈瑞钦 (2025-)
- 毕业: 张栩晨 (2016, 字节跳动), 徐日 (2017, 华为), 马骁炀 (2017, 腾讯), 王立 (2017, 蚂蚁), 朱成纯 (2017, 字节跳动), 黄若孜 (2020, 腾讯), 武多才 (2021, 蚂蚁), 王寒蕊 (2021, 网易), 朱家明 (2021, 蚂蚁), 颜一帆 (2022, 阿里), 李驰 (2022, 阿里), 盛钡娜 (2023, 字节跳动), 姜尔玲 (2023, 阿里), 姜又荷 (2023, 阿里), 徐建伟 (2023, 辽宁选调), 张圣尧 (2024, 阿里), 孙俊杰 (2025, 阿里), 高泽晨 (2025, 复旦)