Agentic AI 维基

实战指南概念深度剖析实战手册运维更新日志关于

深度剖析 / 训练智能体模型

训练智能体模型

面向智能体能力的后训练——SFT、拒绝采样、蒸馏、RLHF/RLAIF、面向工具调用的 RL、奖励设计。

提示、微调，还是强化学习？

改变智能体行为的决策树：提示发问、SFT 模仿、RL 优化——选能闭合差距的最便宜的杠杆。
RLHF 与 RLAIF

逐阶段走完 RLHF 管线——SFT、奖励模型、PPO/GRPO/DPO——以及把人类标注换成 AI 评判者实际修了什么。
面向工具使用与多步任务的强化学习

为何工具轨迹上的 RL 很难：稀疏终端奖励、跨步信用分配，以及为何可信核验器是全部博弈。
奖励设计与奖励黑客

奖励永远是代理：具体的智能体奖励黑客模式、到底座策略的 KL 牵绳，以及审计顶端而非平均的纪律。
SFT、拒绝采样与蒸馏

在 RL 之前解决多数智能体训练问题的有监督技术：拒绝采样、专家迭代，以及把强智能体蒸馏进便宜模型。
过程奖励 vs 结果奖励模型

为答案付费还是为步骤付费：何时稠密过程奖励胜过稀疏结果奖励，以及决定它的标注成本取舍。

Agentic AI 维基 — 沉淀长期有效的知识。 © 2026