Knowledge VaultReading Workbench
Reading Detail

从 P(y|x) 到 P(y):将 RL 引入预训练空间,激发大模型内生推理

BestBlogs.dev · 2026-05-18
#人工智能
Open Original
inboxunread

Snapshot Reader

Captured

📌 一句话摘要

中科院自动化所等机构提出 PreRL 与 DSRL 方法,通过直接优化推理轨迹的边缘分布 P(y) 而非条件分布 P(y|x),配合负样本强化,仅 20 步即可大幅激发大模型内生推理能力,并在多个数学推理基准上超越现有强基线。

📝 详细摘要

本文介绍了由中科院自动化所、新加坡国立大学和腾讯 AI Lab 联合提出的 PreRL(预训练空间强化学习)与 DSRL(双空间强化学习)方法。核心思想是:大模型经过预训练后已内化推理知识,因此可以直接对推理轨迹本身(即优化边缘分布 P(y))进行奖励驱动优化,而非局限于给定问题的条件分布 P(y|x)。研究团队从理论和实验上验证了 P(y) 与 P(y|x) 梯度的高度对齐性。关键发现是,在去掉问题条件的预训练空间中,正样本强化(PSR)失效,而负样本强化(NSR)效果惊人:仅需 20 步即可将模型的过渡推理步骤增加 14.89 倍、反思步骤增加 6.54 倍。基于此,DSRL 采用 Policy Reincarnation 策略,先用 NSR-PreRL 进行预热,快速剪枝错误推理路径并激发内生推理,再切换到标准条件 RL(GRPO)进行精细化优化。实验表明,DSRL 在 MATH500、AMC23、AIME24/25 等多个数学推理基准上一致超越 GRPO、PPO 等强基线,并在 GPQA、MMLU-Pro 等分布外任务上展现出更强的泛化能力。

💡 主要观点

  1. 提出 PreRL 方法,直接优化推理轨迹的边缘分布 P(y) 而非条件分布 P(y|x)。 该方法认为模型已内化推理知识,通过移除问题条件,让奖励信号直接作用于推理轨迹本身,在更广阔的探索空间中重组推理模式。理论与实验验证了 P(y) 与 P(y|x) 梯度在高概率 token 上高度对齐。
  2. 负样本强化(NSR)在预训练空间中效果惊人,正样本强化(PSR)则失效。 NSR-PreRL 通过对负奖励样本施加负梯度,仅 20 步即可将过渡推理步骤提升 14.89 倍、反思步骤提升 6.54 倍,以更少步数剪枝错误推理路径。PSR 则因需要高质量分布外专家演示而无法从在线轨迹中有效学习。
  3. DSRL 将 NSR-PreRL 预热与标准条件 RL 结合,实现更优的推理性能。 DSRL 采用 Policy Reincarnation 策略,先用 NSR-PreRL 快速消除基础错误模式并激发内生推理,再切换到 GRPO 进行精细化优化。在多个数学推理基准上一致超越 GRPO、PPO 等强基线,并展现出更强的分布外泛化能力。

💬 文章金句

  • 现有大模型的推理强化学习,大多是在给定问题 context 的条件下做优化,也就是优化 P(y|x)。
  • PreRL 的做法不同:在更新时移除输入条件,直接优化边缘分布 P(y),让奖励信号直接作用于 reasoning trajectory 本身。
  • 负样本强化(NSR)展现出惊人的效果。NSR-PreRL 通过对奖励为负的样本施加负梯度,在预训练空间中快速剪枝错误推理路径,同时激发模型的内生推理能力。
  • DSRL 将 NSR-PreRL 预热阶段与标准条件 RL 通过 Policy Reincarnation 策略有机结合,在广泛的推理基准和 OOD 泛化任务中一致超越强基线。

📊 文章信息

AI 初评:88
来源:PaperWeekly
作者:PaperWeekly
分类:人工智能
语言:中文
阅读时间:15 分钟
字数:3685
标签: PreRL, DSRL, 强化学习, 大模型推理, 预训练空间