Agentic AI 维基

实战指南概念深度剖析实战手册运维更新日志关于

运维 / 安全与防护

安全与防护

提示注入、沙箱、数据外泄、红队、部署安全——智能体环境制造的威胁模型。

智能体威胁模型

为何自主性与工具使用扩大攻击面，以及攻击者可影响的文本进入智能体的四个通道。
提示词注入：直接与间接

提示词注入的机理、为何无干净修复，以及面向防御者的分层防御模式。
数据外泄与工具滥用

智能体中的混淆代理模式：外泄的源、隐蔽的汇，以及如何切断攻击链。
护栏：过滤、沙箱与作用域

概率性与确定性护栏，以及如何分层输入、输出、沙箱与能力控制。
人在回路与最小权限

以设计实现有界自主：以最小权限为默认，并按后果设置审批关卡。
红队与安全评估

把对智能体的对抗性测试做成可重复、按结果评分的流水线关卡，而非一次性演练。
对齐基础：意图与监督

遵循指令与意图、奖励黑客，以及作为可行杠杆的可扩展监督。
上线前安全评审

一份实用、失败趋关闭优先的部署清单，含 MCP/第三方供应链信任。
RAG 管道安全

为何检索上下文是绕过守卫的不可信输入——语料库投毒、间接注入、嵌入泄露，以及遏制它们的信任边界设计。

Agentic AI 维基 — 沉淀长期有效的知识。 © 2026