推理何时有用（何时烧钱）

深入解析 · 推理与测试时计算

推理是一个有价码的旋钮；决策规则是任务类别 × 可核验性 × 预算。

前五篇文章最终都落到同一处：额外的推理算力按可用信号的多少成比例见效，而一刀切地施加是在浪费钱。本文是综合——一套判定某负载是否该花推理算力的单一决策流程，把推理模型与搜索当作可调旋钮而非默认项，并给出具体的该做/不该做。

STEP 1

三因子规则。

推理算力是否见效，是三个因子的乘积。任务类别：任务是可拆解的（多跳、组合式——推理有余量），还是单跳/直觉的（查表、分类、感知——推理中性至有害）？可核验性：是否存在一个信号——精确检查器、有区分力的核验器、可投票的答案——能把额外候选转化为更好的选择？预算：对这个负载的体量而言，一个边际更好的答案的价值，是否超过延迟与 token 的溢价？任一因子接近零，乘积就接近零：一个可拆解但没有核验器、还顶着紧 QPS 预算的任务，不该上搜索。

STEP 2

升级阶梯——能过线的最便宜那一级胜出。

# Climb only as far as the quality bar forces you
1  single pass                       # default; measure accuracy first
2  + structured CoT                  # decomposable tasks
3  + self-consistency (k at knee)    # small discrete answer space
4  + best-of-N w/ verifier           # a usable verifier exists
5  + beam/tree w/ PRM                # long structure, pruning pays
6  + reasoning model, budget=hi      # verifiable + hard tail only

每一级都把成本翻倍；只有当下一级在有标注集上有实测的准确率差距时才往上爬。生产中最常见的单一错误，是因为任务"感觉很难"就从第 5 或第 6 级起步，却没有证明第 1–3 级不够用。

STEP 3

推理模型是一个旋钮，不是一次类别升级。

"用推理模型"不是一个决策；"对查询类别 Y 把思考预算设为 X"才是。推理模型在最小预算下大致就是一个普通模型；在最大预算下，它是 N2–N5 的搜索与核验被烘焙进权重，曲线同样是凹的、会掉头。把推理努力当作由难度估计选择的、按查询的参数：对占多数的简单查询用低档，只对可核验的困难长尾用高档。一刀切的"处处拉满思考"会在每个查询上都付最坏情形溢价，包括那些单次就能给出一模一样答案的查询。

STEP 4

把烧钱的模式一一点名。

无打分器的搜索。在不可检查的输出上用 LLM 自评跑 ToT/best-of-N——花 30 倍代价去自信地犯错（N3、N4）。
给有偏模型投票。模型众数答案就是错的时候做自一致性——把对错误的置信度抬高（N2）。
在直觉任务上推理。对那些一言语化就变差的感知/模式任务强行 CoT（N1）。
统一拉满预算。不分难度对每个查询都全力思考——绝大多数开支落在没有余量的查询上（N5）。
N 过头的奖励作弊。把 N 拉到系统优化的是代理而非任务（N4）。

这些每一个都随算力增加而变本加厉，不是变好。如果一个质量问题在你加推理后没有改善，那么加更多推理就是错的修法——你有的是信号问题（没核验器、模型有偏、任务类别不对），而算力会把缺失的信号放大成昂贵的噪声。

STEP 5

该做清单。

该做：在加任何推理前先度量单次准确率与成本；在扩大任何预算前先建难度路由器；只要任务允许就锁定一个精确检查器并让它优先于学到的 RM；把 CoT 结构化以便对其编程并审计前提；画真实准确率（不是奖励，不是投票优势度）对算力的曲线并定位拐点；把每种方法封顶在它的拐点，并只把困难长尾路由到那里；模型升级后重新度量——更强的基模型会移动每一个拐点，能让上季度你需要的那一级在本季度变成纯粹浪费。

组合视角：推理算力是一笔在查询间分配的预算，不是施加在模型上的一个设置。最优解几乎总是让大多数查询停在第 1–2 级，并把昂贵的级别集中在一小撮可核验、高价值的长尾上。如果你的开支是均匀的，你就在同时把准确率和钱都留在了桌上。

STEP 6

诚实的取舍。

推理算力只有在任务可拆解、答案可核验、且预算配得上溢价时才转化为准确率——一刀切地施加，它就是"不进步"最昂贵的方式。默认走最便宜那一级，只在实测差距处升级，把思考预算当作按查询路由的旋钮，并记住贯穿整节的那条规律：架构放大信号，它从不制造信号。

推理何时有用（何时烧钱）

推理是一个有价码的旋钮；决策规则是 任务类别 × 可核验性 × 预算。

三因子规则。

升级阶梯——能过线的最便宜那一级胜出。

推理模型是一个旋钮，不是一次类别升级。

把烧钱的模式一一点名。

该做清单。

诚实的取舍。

推理是一个有价码的旋钮；决策规则是任务类别 × 可核验性 × 预算。