运维 / 安全与防护
安全与防护
提示注入、沙箱、数据外泄、红队、部署安全——智能体环境制造的威胁模型。
- 智能体威胁模型为何自主性与工具使用扩大攻击面,以及攻击者可影响的文本进入智能体的四个通道。
- 提示词注入:直接与间接提示词注入的机理、为何无干净修复,以及面向防御者的分层防御模式。
- 数据外泄与工具滥用智能体中的混淆代理模式:外泄的源、隐蔽的汇,以及如何切断攻击链。
- 护栏:过滤、沙箱与作用域概率性与确定性护栏,以及如何分层输入、输出、沙箱与能力控制。
- 人在回路与最小权限以设计实现有界自主:以最小权限为默认,并按后果设置审批关卡。
- 红队与安全评估把对智能体的对抗性测试做成可重复、按结果评分的流水线关卡,而非一次性演练。
- 对齐基础:意图与监督遵循指令与意图、奖励黑客,以及作为可行杠杆的可扩展监督。
- 上线前安全评审一份实用、失败趋关闭优先的部署清单,含 MCP/第三方供应链信任。
- RAG 管道安全为何检索上下文是绕过守卫的不可信输入——语料库投毒、间接注入、嵌入泄露,以及遏制它们的信任边界设计。