构建可信赖的 AI 智能体：挑战与探索

报告摘要: 大语言模型与 AI 智能体正以前所未有的速度发展，在推理、规划以及自主决策等方面展现出日益复杂的能力。然而，这些进展也伴随着不断增长的安全与可靠性风险，尤其是在此类系统逐渐被部署到高风险与安全关键场景中的背景下。确保其可靠性因此已不再是可选项，而是一项基础性要求。在本次报告中，我将探讨构建系统化 AI 安全方法所面临的挑战，并介绍三类互补的技术路线，以提升大规模 AI 系统的安全性与可信赖性。针对每一类方法，我将重点讨论其中若干关键的开放性理论问题，并介绍一些正在兴起的研究工作，这些工作开始为解决上述问题提供新的思路与方向。

报告人简介: 孙军(SUN Jun)是新加坡管理大学的教授。他于2002年和2006年分别获得新加坡国立大学(NUS)计算机科学学士和博士学位，自2010年起担任教职。孙军的研究兴趣包括人工智能安全、软件工程、形式化方法等等。他喜欢设计算法，以解决具有实际应用的难题，也热爱生活。更多信息请见:https://sunjun.site