当一名遵纪守法的"好 AI"有多难?深入理解 AI 越狱攻击原理与模型安全防护,科普新锐扶持计划作品。
黑客如何用精心设计的提示词突破大模型的安全护栏?从角色扮演到编码注入,了解主流越狱手法。
RLHF、宪法 AI、红队测试——大模型如何被训练成"遵纪守法"的好公民?对齐技术的原理与局限。
安全研究员与攻击者之间的猫鼠游戏。每次模型升级都伴随新的攻击面,防御永远在路上。
多模态越狱、Agent 安全、供应链攻击——下一代 AI 安全威胁会是什么样子?我们又该如何准备?