运维 / 安全与防护

安全与防护

提示注入、沙箱、数据外泄、红队、部署安全——智能体环境制造的威胁模型。

  1. 智能体威胁模型
    为何自主性与工具使用扩大攻击面,以及攻击者可影响的文本进入智能体的四个通道。
  2. 提示词注入:直接与间接
    提示词注入的机理、为何无干净修复,以及面向防御者的分层防御模式。
  3. 数据外泄与工具滥用
    智能体中的混淆代理模式:外泄的源、隐蔽的汇,以及如何切断攻击链。
  4. 护栏:过滤、沙箱与作用域
    概率性与确定性护栏,以及如何分层输入、输出、沙箱与能力控制。
  5. 人在回路与最小权限
    以设计实现有界自主:以最小权限为默认,并按后果设置审批关卡。
  6. 红队与安全评估
    把对智能体的对抗性测试做成可重复、按结果评分的流水线关卡,而非一次性演练。
  7. 对齐基础:意图与监督
    遵循指令与意图、奖励黑客,以及作为可行杠杆的可扩展监督。
  8. 上线前安全评审
    一份实用、失败趋关闭优先的部署清单,含 MCP/第三方供应链信任。
  9. RAG 管道安全
    为何检索上下文是绕过守卫的不可信输入——语料库投毒、间接注入、嵌入泄露,以及遏制它们的信任边界设计。