深度剖析 / 训练智能体模型
训练智能体模型
面向智能体能力的后训练——SFT、拒绝采样、蒸馏、RLHF/RLAIF、面向工具调用的 RL、奖励设计。
- 提示、微调,还是强化学习?改变智能体行为的决策树:提示发问、SFT 模仿、RL 优化——选能闭合差距的最便宜的杠杆。
- RLHF 与 RLAIF逐阶段走完 RLHF 管线——SFT、奖励模型、PPO/GRPO/DPO——以及把人类标注换成 AI 评判者实际修了什么。
- 面向工具使用与多步任务的强化学习为何工具轨迹上的 RL 很难:稀疏终端奖励、跨步信用分配,以及为何可信核验器是全部博弈。
- 奖励设计与奖励黑客奖励永远是代理:具体的智能体奖励黑客模式、到底座策略的 KL 牵绳,以及审计顶端而非平均的纪律。
- SFT、拒绝采样与蒸馏在 RL 之前解决多数智能体训练问题的有监督技术:拒绝采样、专家迭代,以及把强智能体蒸馏进便宜模型。
- 过程奖励 vs 结果奖励模型为答案付费还是为步骤付费:何时稠密过程奖励胜过稀疏结果奖励,以及决定它的标注成本取舍。