AI 安全科普

大模型是如何
被玩坏的?

当一名遵纪守法的"好 AI"有多难?深入理解 AI 越狱攻击原理与模型安全防护,科普新锐扶持计划作品。

9:28
视频时长
下载视频

🛡 视频看点

🔓 越狱攻击 0:32

黑客如何用精心设计的提示词突破大模型的安全护栏?从角色扮演到编码注入,了解主流越狱手法。

🧠 模型对齐 3:07

RLHF、宪法 AI、红队测试——大模型如何被训练成"遵纪守法"的好公民?对齐技术的原理与局限。

⚔️ 攻防博弈 5:45

安全研究员与攻击者之间的猫鼠游戏。每次模型升级都伴随新的攻击面,防御永远在路上。

🔮 未来展望 7:48

多模态越狱、Agent 安全、供应链攻击——下一代 AI 安全威胁会是什么样子?我们又该如何准备?