推理何时有用(何时烧钱)

N6
深入解析 · 推理与测试时计算

推理是一个有价码的旋钮;决策规则是 任务类别 × 可核验性 × 预算。

前五篇文章最终都落到同一处:额外的推理算力按可用信号的多少成比例见效,而一刀切地施加是在浪费钱。本文是综合——一套判定某负载是否该花推理算力的单一决策流程,把推理模型与搜索当作可调旋钮而非默认项,并给出具体的该做/不该做。

STEP 1

三因子规则。

推理算力是否见效,是三个因子的乘积。任务类别:任务是可拆解的(多跳、组合式——推理有余量),还是单跳/直觉的(查表、分类、感知——推理中性至有害)?可核验性:是否存在一个信号——精确检查器、有区分力的核验器、可投票的答案——能把额外候选转化为更好的选择?预算:对这个负载的体量而言,一个边际更好的答案的价值,是否超过延迟与 token 的溢价?任一因子接近零,乘积就接近零:一个可拆解但没有核验器、还顶着紧 QPS 预算的任务,不该上搜索。

STEP 2

升级阶梯——能过线的最便宜那一级胜出。

# Climb only as far as the quality bar forces you
1  single pass                       # default; measure accuracy first
2  + structured CoT                  # decomposable tasks
3  + self-consistency (k at knee)    # small discrete answer space
4  + best-of-N w/ verifier           # a usable verifier exists
5  + beam/tree w/ PRM                # long structure, pruning pays
6  + reasoning model, budget=hi      # verifiable + hard tail only

每一级都把成本翻倍;只有当下一级在有标注集上有实测的准确率差距时才往上爬。生产中最常见的单一错误,是因为任务"感觉很难"就从第 5 或第 6 级起步,却没有证明第 1–3 级不够用。

STEP 3

推理模型是一个旋钮,不是一次类别升级。

"用推理模型"不是一个决策;"对查询类别 Y 把思考预算设为 X"才是。推理模型在最小预算下大致就是一个普通模型;在最大预算下,它是 N2–N5 的搜索与核验被烘焙进权重,曲线同样是凹的、会掉头。把推理努力当作由难度估计选择的、按查询的参数:对占多数的简单查询用低档,只对可核验的困难长尾用高档。一刀切的"处处拉满思考"会在每个查询上都付最坏情形溢价,包括那些单次就能给出一模一样答案的查询。

STEP 4

把烧钱的模式一一点名。

  • 无打分器的搜索。在不可检查的输出上用 LLM 自评跑 ToT/best-of-N——花 30 倍代价去自信地犯错(N3、N4)。
  • 给有偏模型投票。模型众数答案就是错的时候做自一致性——把对错误的置信度抬高(N2)。
  • 在直觉任务上推理。对那些一言语化就变差的感知/模式任务强行 CoT(N1)。
  • 统一拉满预算。不分难度对每个查询都全力思考——绝大多数开支落在没有余量的查询上(N5)。
  • N 过头的奖励作弊。把 N 拉到系统优化的是代理而非任务(N4)。

这些每一个都随算力增加而变本加厉,不是变好。如果一个质量问题在你加推理后没有改善,那么加更多推理就是错的修法——你有的是信号问题(没核验器、模型有偏、任务类别不对),而算力会把缺失的信号放大成昂贵的噪声。

STEP 5

该做清单。

该做:在加任何推理前先度量单次准确率与成本;在扩大任何预算前先建难度路由器;只要任务允许就锁定一个精确检查器并让它优先于学到的 RM;把 CoT 结构化以便对其编程并审计前提;画真实准确率(不是奖励,不是投票优势度)对算力的曲线并定位拐点;把每种方法封顶在它的拐点,并只把困难长尾路由到那里;模型升级后重新度量——更强的基模型会移动每一个拐点,能让上季度你需要的那一级在本季度变成纯粹浪费。

组合视角:推理算力是一笔在查询间分配的预算,不是施加在模型上的一个设置。最优解几乎总是让大多数查询停在第 1–2 级,并把昂贵的级别集中在一小撮可核验、高价值的长尾上。如果你的开支是均匀的,你就在同时把准确率和钱都留在了桌上。

STEP 6

诚实的取舍。

推理算力只有在任务可拆解、答案可核验、且预算配得上溢价时才转化为准确率——一刀切地施加,它就是"不进步"最昂贵的方式。默认走最便宜那一级,只在实测差距处升级,把思考预算当作按查询路由的旋钮,并记住贯穿整节的那条规律:架构放大信号,它从不制造信号。