2026世界杯预选赛下单中国体彩官网当SFT遇上RL：基于样本学习阶段的动态政策优化机制

夙昔一段技术里，在围绕大模子推理才调增强的参谋中，SFT 和 RL 是两类中枢后进修范式 —— 前者强壮握住快，能高效给与高质料推理数据；后者更具探索性，有望推动模子结束复杂推理和散播外泛化。

但在践诺进修中，这两种信号却难以灵验交融，现存职责大多仅停留在 "把两个 loss 混在一说念" 的层面。

为布置这一挑战，参谋团队冷落了DYPO（Dynamic Policy Optimization）动态政策优化才能。

中枢念念考在于：既然 SFT 和 RL 的学习信号统计性质自然不同，妥洽优化要如何作念，才能既保留监督学习的强壮性，又不捐躯强化学习的探索才调？

△ 图 1：DYPO 的举座框架

如图 1，模子会先把柄一组 rollout 的效劳判断样本所处的学习阶段，再决定它应该走监督旅途、强化学习旅途，照旧暂时跳过。

SFT 和 RL 为什么很难确实协同

要是把大模子后进修比作"教学生作念题"，SFT 和 RL 的特点互异便一目了然。

SFT更像憨厚平直讲圭表谜底。它的优点是学得快、过程稳、握住也更容易戒指，但问题在于，学生很容易学成"会按套路作念题"，一朝题目稍稍变形，就可能枯竭泛化才调。

RL更像让学生我方反复尝试，再把柄得分不绝修正政策。它的优点是更有探索性，更可能逼着模子从"记取解法"走向"学会推理"，但流毒相通清醒：进修过程中波动更大，奖励一朝寥落，模子就很容易学偏，以至不强壮。

从表面层面看，这背后对应着典型的偏差—方差矛盾：

SFT：低方差，但高偏差。SFT 的梯度来自静态高质料数据，更新强壮、噪声小，却自然偏向拟合示范散播，压缩模子探索空间；

RL：低偏差，但高方差。RL 通过奖励运转试错，更接近 "灵验政策优化"，但受采样赶快性和奖励寥落性影响，梯度方差高、进修易波动。

问题也正出在这里。许多妥洽进修才能固然同期用了 SFT 和 RL，但默许通盘样本都值得用合并种方法去向理。

但践诺情况中，不相通本的学习信号存在权臣互异：有些问题模子仍是会了，屡次 rollout 都能答对，这类样本络续进修，收益经常很有限；有些问题模子刻下十足不会，屡次 rollout 全部失败，这时平直作念 RL 经常也拿不到什么灵验奖励；

确实最值得优化的，反而是那些"仍是会小数，但还不强壮"的样本。它们既证实模子仍是摸到了门槛，又保留了区分正确轨迹和诞妄轨迹的空间。

因此，这项职责想治理的，并不是"要不要把 SFT 和 RL 放在一说念"，而是更进一步：不同学习阶段的样本，到底应该如何被优化，才能在强壮和探索之间找到更合理的均衡。

△ 图 2：SFT 与 RL 的偏差—方差矛盾

SFT 更稳，但偏差更大；RL 偏差更低，但进修波动清醒更强。

DYPO 如何同期处理偏差和方差问题

基于上述念念考，开云体育中国一站式服务官网本文冷落了Dynamic Policy Optimization ( DYPO ) 。它的中枢念念想并不是再堆一个更复杂的进修历程，而是先把柄 rollout 效劳判断样本所处的学习阶段，再去匹配最合适的优化旅途。

具体而言，DYPO 会让刻下政策为每个问题生成一组 rollout，然后把柄这些 rollout 的成败情况，把样本差别红三类：

Easy 样本：一组 rollout 全部收效，证实模子已掌抓这类问题，平直跳过以减少无效更新；

Hard 样本：一组 rollout 全部失败，证实模子枯竭充足学问基础，平直作念 RL 难获强壮正向信号。对此选拔多西席蒸馏（Multi-Teacher Distillation），引入多个 teacher 让 student 学习多种合理推理轨迹的共通部分，减少单一 teacher 的特定偏差，先诞生可靠先验，再去谈后续探索；

Mid 样本：一组 rollout 有收效也有失败，是最有价值的"学习前沿"。这类样本相宜 RL 优化。但为治理圭表 RL 的高方差问题，团队在 GRPO 的基础上引入了Group Alignment Loss，也即是GAL，来对王人赔本。

GAL 的中枢念念路是应用合并组 rollout 中的成败轨迹互异，显式将模子拉向正确轨迹、推离诞妄轨迹。这让 RL 更新不再仅依赖高噪声奖励信号，而是稀奇得到了一层更强壮的相对对王人管制。

换句话说，GAL 的作用并不是简便"再加一个 loss "，而是在 RL 更新过程中充任一个动态的方差遏止项。

要是从表面上归来 DYPO 的缠绵逻辑，它其实是在分别处理 SFT 和 RL 的两个中枢流毒：

多西席蒸馏针对Hard 样本，缓解 SFT 的高偏差问题。多个 teacher 的组合可对消个体偏差，2026世界杯体彩官网使举座监督偏差随 teacher 数目增多而着落；

GAL 针对Mid 样本，治理 RL 的高方差问题。混规划议的梯度方差严格小于纯 GRPO，且随模子区分轨迹才调的提高，GAL 自己的方差还会进一步自然衰减。

由此可见，DYPO 并不是简便把 SFT 和 RL 拼起来，而是在结构上把"高偏差监督"和"高方差强化学习"分别放到最相宜的样本上处理。也正因为如斯，它更像是一种重新组织后进修过程的方法，而不单是是一个新的进修手段。

△ 图 3：GAL 的直不雅机制

如图 3，它应用合并组 rollout 中仍是出现的正负样本，把模子往正确轨迹标的拉近，同期把诞妄轨迹往外推开。

实验效劳

参谋团队在数学和逻辑推理场景开展实验，基础模子包括Qwen2.5-Math-7B 和 Qwen3-4B-Base，评测任务遮掩 AIME 2024/2025、AMC、MATH-500、Minerva，以及更偏散播外泛化的 ARC-c 和 GPQA-Diamond。

对这类职责来说，分数自然迫切，但要是只看最终效劳，很容易把 DYPO 知道成"又一个作念得更高的进修手段"。真碰劲得看的，其实是它到底赢在什么处所。

在Qwen2.5-Math-7B上，和传统SFT → RL规则 pipeline 比拟，DYPO：

五个复杂推理 benchmark 上的平中分从47.7提高到52.5，对应4.8个点的提高

在 OOD 任务上，平中分从48.3提高到61.6，对应13.3个点的提高

这一提高并非依赖单一任务冲高，而是举座发扬更强壮。尤其是在GPQA-Diamond这种更敬重搬动推理才调的任务上，DYPO 取得了表中最佳的效劳，这证实它学到的并不单是更濒临进修散播的模板。

△ 图 4：Qwen2.5-Math-7B 上的举座效劳对比

如图炫耀，DYPO 在复杂推理和散播外任务上都发扬出较强的详尽上风。

在Qwen3-4B-Base上，肖似的趋势依然存在。DYPO：

在 ID 任务上的平中分达到66.9，清醒高于SFT → RL的56.1；

在 OOD 任务上，平中分达到68.5，也高于后者的 52.6。

这证实它的收益并不单依赖某一个特定 backbone，而更像来自这套动态分流机制自己。

此外，消融实验进一步考证了才能灵验性。

许多技术，一个才能看起来更强，就怕是因为才能自己，也可能只是 teacher 更强、数据更好。

但在这项职责里，即便把第二个 teacher 换成比原西席 deepseek-R1 更弱的 Qwen3-8B 模子，DYPO 依然能把AIME 25从22.0提高到27.8，把GPQA-Diamond从30.8提高到39.4。

这意味着它的提高并不单是来自"多喂了一些更强 teacher 的数据"，而是背面这套动态路由与低方差优化自己确乎阐扬了作用。

除了最终效劳，参谋还考证了 DYPO 的进修强壮性。

作家分析了进修过程中离线数据占比、reward 和政策熵的变化。

一个很有兴趣的神色是，DYPO 并不是一上来就把模子推向更强的探索，而是跟着才调提高，渐渐裁减对监督信号的依赖，让进修自然从"更靠 teacher 扶着走"过渡到"更依赖政策我方探索"。

这个过程有点像一种自稳健课程学习：先把基础稳住，再把探索空间逐渐放出来。

△ 图 5：进修动态分析

如图，跟着进修推动，DYPO 会渐渐减少对离线监督的依赖，同期保持相对健康的政策各样性。

再看梯度范数。

圭表 GRPO 的梯度弧线会有比较清醒的剧烈颤动，而 DYPO 的弧线要平滑得多。这种互异看起来像是进修细节，但背后对应的其实是一个很践诺的问题：要是梯度一直在大幅舞动，进修就更容易发散，也更难把学习率和优化政策设得积极。

DYPO 在这里发扬出的强壮性，正好证实它对 RL 那部分高方差更新作念了灵验管制。

△ 图 6：梯度范数对比

如图 6，和圭表 GRPO 比拟，DYPO 的更新轨迹更平滑，也更容易保持可控。

归来

DYPO 不是在证实 SFT 和 RL 不错一说念用，而是在回报它们到底应该如何一说念用。它提供的，是一种更像"进修组织方法"的念念路。

过往参谋已知道到，单纯依赖监督简略单纯依赖强化学习，都不及以把大模子推理才调往前再推一大步。但中枢难点并非缠绵酌量函数，而是不同阶段、不相通本暴表示来的学习信号自己就不一样。

DYPO 的中枢孝顺，是将优化逻辑前移：先判断样本学习阶段，再匹配优化旅途。这么一来，SFT 矜重把模子扶稳，RL 矜重让模子络续往外探索，而非无辞别地搀杂两种信号。

自然，这项职责也有其实验规模。

当今主要考证的是数学与逻辑推理场景，对盛开式对话、创作类任务是否相通灵验，还需要进一步不雅察；同期，为了强壮预见样本难度，进修时每个 prompt 需要生成 8 条 rollout，这也意味着稀奇算力支出。

关于大模子推理才调增强来说，这也许不是畸形，但 DYPO 无疑提供了一个值得持续推动的新标的。

Arxiv Link: https://arxiv.org/pdf/2604.08926

Github Link: https://github.com/Tocci-Zhu/DYPO

一键三连「点赞」「转发」「留意心」

接待在挑剔区留住你的主义！

— 完 —

咱们正在招聘又名眼疾手快、矜恤 AI 的学术剪辑实习生 � �

感兴趣的小伙伴接待矜恤 � � 了解确定

� � 点亮星标 � �

科技前沿进展逐日见2026世界杯预选赛下单中国体彩官网

2026世界杯预选赛下单中国体彩官网 当SFT遇上RL：基于样本学习阶段的动态政策优化机制

2026世界杯预选赛下单中国体彩官网当SFT遇上RL：基于样本学习阶段的动态政策优化机制