AI 安全科普

大模型是如何
被玩坏的？

当一名遵纪守法的"好 AI"有多难？深入理解 AI 越狱攻击原理与模型安全防护，科普新锐扶持计划作品。

9:28

视频时长

🛡 视频看点

🔓 越狱攻击 0:32

黑客如何用精心设计的提示词突破大模型的安全护栏？从角色扮演到编码注入，了解主流越狱手法。

🧠 模型对齐 3:07

RLHF、宪法 AI、红队测试——大模型如何被训练成"遵纪守法"的好公民？对齐技术的原理与局限。

⚔️ 攻防博弈 5:45

安全研究员与攻击者之间的猫鼠游戏。每次模型升级都伴随新的攻击面，防御永远在路上。

🔮 未来展望 7:48

多模态越狱、Agent 安全、供应链攻击——下一代 AI 安全威胁会是什么样子？我们又该如何准备？