深度剖析 / 推理与测试时计算

推理与测试时计算

思维链、自我一致性、思维树/图,以及支配它们的推理期扩展规律。

  1. 正确理解思维链
    CoT 究竟买到了什么(串行计算,而非内省)、忠实性与事后合理化、它何时有害,以及结构化轨迹与自由轨迹之别。
  2. 自一致性与采样
    采样加多数投票为何有效、偏差被放大的精确失效条件、收益饱和曲线,以及如何花好 k 这笔预算。
  3. 思维树与思维图
    在部分解之上的刻意搜索、乘性成本,以及对部分状态打分器这一承重依赖。
  4. 核验器引导的搜索
    结果型与过程型奖励模型如何引导 best-of-N 与束搜索、推理时的奖励作弊,以及为何核验器才是产品。
  5. 推理时扩展
    测试时计算作为第二条扩展轴、按难度自适应的计算最优前沿,以及更多思考何处停止见效。
  6. 推理何时有用(何时烧钱)
    综合决策规则——任务类别 × 可核验性 × 预算——升级阶梯、点名的烧钱模式,以及一份该做/不该做清单。