构建可信赖的 AI 智能体:挑战与探索

photo

报告摘要: 大语言模型与 AI 智能体正以前所未有的速度发展,在推理、规划以及自主决策等方面展现出日益复杂的能力。然而,这些进展也伴随着不断增长的安全与可靠性风险,尤其是在此类系统逐渐被部署到高风险与安全关键场景中的背景下。确保其可靠性因此已不再是可选项,而是一项基础性要求。在本次报告中,我将探讨构建系统化 AI 安全方法所面临的挑战,并介绍三类互补的技术路线,以提升大规模 AI 系统的安全性与可信赖性。针对每一类方法,我将重点讨论其中若干关键的开放性理论问题,并介绍一些正在兴起的研究工作,这些工作开始为解决上述问题提供新的思路与方向。

报告人简介: 孙军(SUN Jun)是新加坡管理大学的教授。他于2002年和2006年分别获得新加坡国立大学(NUS)计算机科学学士和博士学位,自2010年起担任教职。孙军的研究兴趣包括人工智能安全、软件工程、形式化方法等等。他喜欢设计算法,以解决具有实际应用的难题,也热爱生活。更多信息请见:https://sunjun.site