DeepSeek-R1 论文阅读总结

Q1: DeepSeek如何处理可读性问题？

通过构建冷启动数据（数千条长CoT数据）微调基础模型，结合多阶段训练流程（RL训练、拒绝采样生成SFT数据），并优化输出格式（如特殊标记分隔），显著提升可读性。相比仅用RL的Zero版本，改进后的R1保持了推理能力且输出更易读。

Q2: DeepSeek-R1-Zero与R1的核心区别？

-R1-Zero：纯RL训练，无监督数据，输出存在语言混杂、可读性差

-R1：引入监督学习阶段

Q3: 如何验证推理能力蒸馏效果？

在标准评测网站（如LiveCodeBench/Codeforces）测试，经蒸馏的小模型性能超越直接用RL训练的同规模模型。

Q4: 成本节约方法？