
报告摘要: 随着深度学习模型的广泛应用,如何保护训练数据免遭未经授权的学习,已成为 AI 安全领域的核心问题之一。本次报告围绕“数据能否保护自己”这一主线,介绍我们在 Unlearnable Data 方向上的系列工作。我们首先从理论出发,证明贝叶斯误差是神经网络鲁棒性的内在上界,揭示学习的根本极限;进而将这一理论工具反转为设计目标,构造出首个具有可证明保证的 Unlearnable Examples 方法,并证明其在混合数据场景下依然有效。然而,上述方法在大语言模型面前遭遇根本性挑战:LLM的强泛化能力使其对传统扰动高度不敏感,令既有的形式化保证失去前提。对此,我们转换思路,不再对抗 LLM 的鲁棒性,而是利用其自身的 alignment 机制:通过 Disclaimer Injection,使模型在微调时持续触发对齐约束,从而无法习得有效的任务知识,在大语言模型时代实现数据主权保护。
报告人简介: 张睿涵(ZHANG Ruihan),新加坡管理大学博士后研究员,于2026年获得新加坡管理大学博士学位,博士导师为孙军教授。她的研究方向为可信 AI,聚焦于深度学习系统的鲁棒性、公平性与隐私性认证,结合形式化方法与实证分析开展研究。相关成果发表于 ACL、AAAI、OOPSLA、CAV 等顶级学术会议。她致力于弥合理论保证与实际 AI 部署之间的鸿沟,推动 AI 系统走向安全、公平与可信。