可信人工智能
概述
本课题组致力于构建安全、可靠、符合伦理的下一代人工智能系统,重点研究大模型与智能体的对抗防御、隐私保护、价值观对齐及算法公平性,推动可信AI成为可落地的技术标准。
协调人
吴保元,副教授 (人工智能学院)
成员
贺品嘉,助理教授 (数据科学学院&人工智能学院)
唐晓莹,助理教授 (理工学院)
吴保元,副教授 (人工智能学院)
查宏远,教授 (数据科学学院)
赵展展,助理教授 (人文社科学院&人工智能学院)
| 研究领域 |
对抗鲁棒性与模型安全性
深度伪造与合成媒体检测
隐私保障的联邦学习
AI对齐与价值一致行为
公平性、偏见缓解与算法公平
可解释与可审计的AI系统
人机协作与信任校准
具身智能安全与物理世界可靠性
多智能体系统安全与协调完整性
| 研究愿景与目标 |
本课题组致力于构建不仅强大,而且深度可信的AI系统——尤其是大语言模型、自主AI智能体和具身智能系统。我们认识到,信任必须被工程化地嵌入到每一层:从确保模型免受对抗性威胁的攻击、保障用户隐私,到确保与人类价值观对齐、遏制合成虚假信息的传播,以及在不同社群中促进公平。我们的愿景是超越性能指标,培养在复杂的真实世界场景中行为可靠、透明且合乎道德的AI。
我们通过跨学科创新来追求这一目标——开发可扩展的对齐技术、保护隐私的架构,以及为下一代AI量身定制的具备公平意识的训练框架。无论是在多智能体协调、物理世界交互,还是开放式的人机协作中,我们都旨在为开发者、政策制定者和用户提供负责任地部署AI所需的工具与原则。最终,我们的使命是将可信度从一个愿景转变为可衡量、可执行的标准——从而让AI能够以信心、公平和诚信赋能社会。


