Unlearnable Data in AI Era：理论，机制与挑战

报告摘要: 随着深度学习模型的广泛应用，如何保护训练数据免遭未经授权的学习，已成为 AI 安全领域的核心问题之一。本次报告围绕“数据能否保护自己”这一主线，介绍我们在 Unlearnable Data 方向上的系列工作。我们首先从理论出发，证明贝叶斯误差是神经网络鲁棒性的内在上界，揭示学习的根本极限；进而将这一理论工具反转为设计目标，构造出首个具有可证明保证的 Unlearnable Examples 方法，并证明其在混合数据场景下依然有效。然而，上述方法在大语言模型面前遭遇根本性挑战：LLM的强泛化能力使其对传统扰动高度不敏感，令既有的形式化保证失去前提。对此，我们转换思路，不再对抗 LLM 的鲁棒性，而是利用其自身的 alignment 机制：通过 Disclaimer Injection，使模型在微调时持续触发对齐约束，从而无法习得有效的任务知识，在大语言模型时代实现数据主权保护。

报告人简介: 张睿涵（ZHANG Ruihan），新加坡管理大学博士后研究员，于2026年获得新加坡管理大学博士学位，博士导师为孙军教授。她的研究方向为可信 AI，聚焦于深度学习系统的鲁棒性、公平性与隐私性认证，结合形式化方法与实证分析开展研究。相关成果发表于 ACL、AAAI、OOPSLA、CAV 等顶级学术会议。她致力于弥合理论保证与实际 AI 部署之间的鸿沟，推动 AI 系统走向安全、公平与可信。