English Version

作者: Hejian Sang, Yuanda Xu, Zhengze Zhou, Ran He, Zhipeng Wang

背景

我们一直在基于 DAPO-Math-17k 数据集的指令格式构建数学推理 RL 训练流程。DAPO 格式会在每道题后附加 "Answer: $Answer" 这条指令,并通过正则匹配该模式从模型输出中抽取答案。当我们在非 thinking 模式下评测 Qwen3 基座模型(4B、8B、14B、32B)在 MATH-500、AIME 2024 和 AIME 2025 上的表现时,发现准确率明显低于 Qwen3 技术报告中的结果。在 MATH-500 上,这一差距达到 20 到 40 多个百分点,已经不能简单归因于采样方差或实现细节差异。

我们的假设很直接:Qwen3 模型在微调后倾向于把最终答案放进 \boxed{} 中,即使没有明确要求这种格式;而 Answer: 的正则抽取方式会漏掉一部分本来正确的回答。如果成立,那么复现误差至少有一部分来自评测流程,而不是模型能力本身。

为了验证这一点并量化影响,我们设计了一个只改变指令格式和奖励抽取函数的对照实验。

实验设计

我们对四个 Qwen3 模型(4B、8B、14B、32B)在三种指令变体和三个基准数据集上做了全交叉评测。三种指令变体分别在原题后追加不同后缀:

  • boxed: "Let's think step by step and output the final answer within \boxed{}."
  • dapo: "Solve the following math problem step by step. The last line of your response should be of the form Answer: $Answer (without quotes) where $Answer is the answer to the problem.\n\nRemember to put your answer on its own line after \"Answer:\"."
  • none: 不追加额外指令,只保留原题。

每种指令变体都配套使用相应的 reward function。boxednone 条件使用 math_reward,它会从 \boxed{} 中提取答案,并用 is_equiv 做等价比较;dapo 条件使用 math_dapo,它通过 Answer: 正则抽取答案,并采用精确字符串匹配。

所有实验都使用相同的采样参数:temperature 0.7top_p=0.8top_k=20,每题采样 n=16 次。我们报告 mean@16 accuracy,也就是对每道题 16 个样本的正确率取平均。三个基准数据集 MATH-500、AIME 2024 和 AIME 2025 覆盖了不同难度层级。

结果

MATH-500

MATH-500 accuracy by instruction variant

AIME 2024

AIME 2024 accuracy by instruction variant

AIME 2025

AIME 2025 accuracy by instruction variant

汇总表

下面的表格汇总了我们的 mean@16 结果,并与 Qwen3 技术报告中的结果做对比。

Model Instruction MATH-500 AIME’24 AIME’25
Qwen3-4B reported 84.8 25.0 19.1
Qwen3-4B boxed 81.0 23.3 21.5
Qwen3-4B none 78.9 23.3 20.2
Qwen3-4B dapo 39.1 7.5 5.0
         
Qwen3-8B reported 87.4 29.1 20.9
Qwen3-8B boxed 80.5 24.8 21.5
Qwen3-8B none 78.7 28.5 20.2
Qwen3-8B dapo 60.4 15.4 8.8
         
Qwen3-14B reported 90.0 31.7 23.3
Qwen3-14B boxed 83.3 26.5 23.8
Qwen3-14B none 82.3 29.8 27.5
Qwen3-14B dapo 52.9 17.3 6.5
         
Qwen3-32B reported 88.6 31.0 20.2
Qwen3-32B boxed 82.4 26.0 20.8
Qwen3-32B none 80.8 29.4 23.1
Qwen3-32B dapo 52.8 17.5 5.6

分析

发现 1:DAPO 指令格式会导致灾难性的准确率下降

Accuracy drop from boxed to dapo by dataset

从 boxed 条件切换到 DAPO 条件后,MATH-500 上所有模型规模都出现了明显的准确率下滑,下降幅度从 20 个百分点(Qwen3-8B)到 42 个百分点(Qwen3-4B)不等。在 AIME 基准上,这种下降同样严重:例如 Qwen3-4B 在 AIME’24 上从 23.3% 降到 7.5%,在 AIME’25 上从 21.5% 降到 5.0%。由于这个对比同时改变了输出指令和评分规则,因此它说明 DAPO 评测设置是结果偏差的主要来源,但还不能完全区分其中有多少来自抽取失败,有多少来自指令本身对推理能力的干扰。

发现 2:Qwen3 在没有显式要求时也会默认输出 \boxed{}

boxed 和 none 两个条件的结果在所有模型和数据集上都很接近。在 MATH-500 上,两者最大差距只有 2.1 个百分点(Qwen3-4B: 81.0% vs 78.9%)。这和一个直觉一致:Qwen3 模型默认就偏向把答案写进 \boxed{} 里,即使没有明确说明。额外给出 \boxed{} 指令只带来了很小的提升。

发现 3:在 MATH-500 上,与报告值相比仍然存在少量差距

我们的 boxed 和 none 结果在 MATH-500 上仍然比 Qwen3 技术报告低 3 到 7 个百分点。报告使用的是 mean@64,而我们使用的是 mean@16,因此在随机采样解码下出现小幅差异是合理的,尤其考虑到我们的 GPU 预算限制。剩余差距可能来自采样方差,以及 chat template、system prompt、后处理等设置上的差别。在 AIME 上,我们的结果在一些配置中已经接近甚至超过报告值,不过由于 mean@16 和 mean@64 并不是完全相同的估计量,这些对比仍然需要谨慎解释。

发现 4:AIME 在不加额外指令时略有优势

在 AIME 数据集上,一个有意思的现象是 none 条件在若干情况下能匹配甚至超过 boxed。比如 Qwen3-8B 在 AIME’24 上 none 为 28.5%,而 boxed 为 24.8%;Qwen3-14B 在 AIME’25 上 none 为 27.5%,而 boxed 为 23.8%。一种可能解释是,额外的格式指令会让模型把部分注意力放到格式遵循上,而不是纯粹的数学推理上。不过这些差异整体不大,而且在不同模型上并不完全一致,因此不应过度解读。

发现 5:格式敏感性在不同模型规模上都一致存在

无论是 4B 还是 32B,整体模式都一致:dapo 远低于 boxed 和 none,而 boxed 与 none 彼此接近。这说明问题并不是某个特定模型规模的特例,而是 Qwen3 在这种评测设置下普遍存在的行为模式。换句话说,DAPO 指令格式对于 Qwen3 评测来说是系统性不合适的。

DAPO 结果的损失分析

为了进一步理解 DAPO 为什么会失败,我们把错误拆成两类来源:抽取不匹配,以及指令引起的推理退化。

Loss analysis by dataset

Aggregate loss analysis across all benchmarks

一个关键指标是:模型实际上已经在 \boxed{} 中给出了正确答案,但 Answer: 抽取规则没有抓到它的样本占比。

  • Qwen3-4B: 18.1% 的全部样本本来答对了,但被 Answer: 抽取器误判为错误
  • Qwen3-8B: 9.5% 的样本损失来自抽取不匹配
  • Qwen3-14B: 3.9% 的样本损失来自抽取不匹配
  • Qwen3-32B: 2.7% 的样本损失来自抽取不匹配

这个分解给出两个重要结论。第一,抽取不匹配只是退化来源之一,而且往往不是最大的那部分。如果把这些“格式没对上但答案其实是对的”样本补回来,那么所有 benchmark 上的修正后综合准确率会分别从 35.6%、55.2%、48.5%、48.4% 提升到 53.7%、64.8%、52.4%、51.1%。但这些修正后结果依然明显低于 boxed 条件,这说明 DAPO 设置除了抽取失败之外,还会带来额外的性能损失。

第二,抽取损失率和模型规模呈负相关。Qwen3-4B 有 18.1% 的样本损失于格式不匹配,而 Qwen3-32B 只有 2.7%。这说明小模型更难适应不熟悉的 Answer: 指令,因此更容易回到自己默认的 \boxed{} 输出形式。更大的模型虽然仍明显偏向 \boxed{},但在按照要求切换输出格式上稍微更强一些。

结论

DAPO 评测流程与 Qwen3 微调后答案输出格式之间的不匹配,是我们无法复现 benchmark 结果的主要原因。Answer: 正则抽取会漏掉那些被放进 \boxed{} 的正确答案,而 DAPO 指令格式本身看起来也会削弱推理表现。使用与 \boxed{} 对齐的评测方式后,我们的结果就明显更接近 Qwen3 技术报告;MATH-500 上剩余的 3 到 7 个百分点差距,基本可以由 mean@16 与 mean@64 的差别以及其他评测设置差异来解释。

参考文献

  • Yang, A., Li, A., Yang, B., Zhang, B., Hui, B., Zheng, B., Yu, B., Gao, C., Huang, C., Lv, C., et al. (2025). Qwen3 Technical Report. arXiv preprint arXiv:2505.09388.
  • Yu, Q., Zhang, Z., Zhu, R., Yuan, Y., Zuo, X., Yue, Y., Dai, W., Fan, T., Liu, G., Liu, L., et al. (2025). DAPO: An Open-Source LLM Reinforcement Learning System at Scale. arXiv preprint arXiv:2503.14476.

如何引用这篇博客

@article{sang2026qwen3formatzh,
  title={Qwen3 数学推理评测中的答案格式敏感性},
  author={Sang, Hejian and Xu, Yuanda and Zhou, Zhengze and He, Ran and Wang, Zhipeng},
  journal={Hejian Blog},
  year={2026},
  url={https://hjsang.github.io/qwen3-answer-format-sensitivity-zh/}
}