当前位置:首页 > Deepseek最新资讯 > 正文内容

14B打败671B!微软rStar2-Agent在数学推理上超过DeepSeek

10小时前Deepseek最新资讯32

  通常而言,延长思维链(CoT)就可以延长「思考时间」,从而显著提升性能,尤其是当使用大规模强化学习和可验证奖励 (RLVR) 进行优化时。

  然而,对于容易出现细微中间错误或需要创造性推理转变的难题,较长的思维链仍然存在根本性的局限性。在这些情况下,模型往往依赖内部的自我反思,但这又常常无法发现错误,也无法在初始方法存在缺陷时进行自我纠正。

  因此,模型不仅要能更长时间地思考,还应该要能「更聪明」地思考。为此,可以引入更高级的认知能力,让模型可以自主地利用合适的工具,从工具环境提供的反馈信号中进行推理、验证和学习。

  近日,微软研究院的一个研究团队探索了使用主动式强化学习(agentic reinforcement learning)来实现这一目标,也就是说,模型会与专用工具环境中的工具进行交互,并根据收到的反馈调整其推理方式。

  而他们的探索成果便是rStar2-Agent,这是一种强大的主动式强化学习方法。使用该方法,这个微软团队训练了一个 14B 的推理模型rStar2-Agent-14B—— 该模型达到前沿级别的性能,媲美甚至超越了 671B 的 DeepSeek-R1!

  Python 编程工具可拓宽模型的行动空间,使其能够探索替代方案并验证中间步骤,从而在单靠较长的 CoT 不足的情况下补充内部的自我反思。

  首先,编程工具和 Python 解释器的固有复杂性会将环境噪声引入推理过程。当模型不可避免地生成语法或逻辑上错误的代码时,由此产生的环境反馈(例如,错误消息)可能会导致模型浪费宝贵的 token 来纠正错误,而不是推进推理。遗憾的是,当前的强化学习方法主要依赖于「仅结果奖励」,而这只会加剧这个问题,因为即使中间工具调用失败的轨迹仍然会获得正奖励,只要最终答案正确即可。如此一来,该模型就会将错误视为可接受的,并生成冗长且低质量的推理轨迹。

  其次,大规模主动式强化学习训练对基础设施的要求很高。单个训练批次可以触发数万个并发工具调用,这使得构建可靠且响应迅速的代码执行环境变得极具挑战性。

  此外,与环境交互的智能体部署会放大标准强化学习系统中部署效率低下的现象,从而显著减慢整体训练速度。

  他们构建了一个高吞吐量、独立的代码环境,能够处理 45K 个并发工具调用,平均执行反馈仅需 0.3 秒即可返回。

  为了解决强化学习 rollout 效率低下的问题,他们引入了一个负载均衡的 rollout 调度程序,该调度程序会根据 GPU 上可用的键值缓存容量动态分配 rollout 请求,从而最大限度地提高计算利用率。

  即使在 GPU 资源有限的情况下,该基础架构也能实现高效的强化学习训练。使用 64 块 MI300X GPU,该团队仅用一周时间就完成了 rStar2-Agent-14B 的训练。

  第二,为了在代码环境中实现有效的主动式强化学习,该团队提出了基于正确重采样的组相对策略优化 (GRPO-RoC),它将 GRPO 与基于正确重采样 (RoC) 的 rollout 策略相结合,以解决稀疏且仅关注结果的奖励条件下环境引起的噪声。

  具体而言,RoC 首先对较大的 rollout 组进行过采样,然后下采样至标准批次大小。正向轨迹经过筛选,仅保留质量最高且工具导致错误或格式问题最少的轨迹,而负向轨迹则进行均匀下采样。

  这种简单而有效的非对称采样方法将各种故障模式保留为信息丰富的负向信号,同时强调更高质量的成功案例以进行正向监督。

  相比于在奖励函数中明确惩罚工具使用错误的方法,GRPO-RoC 可提高训练稳定性,并可避免 reward-hacking 的风险。

  通过学习更清洁、更高质量的正向轨迹,该模型不仅能提升 Python 编程工具的使用率,还展现出高级认知能力,能够在真实的代码环境交互下更高效、更简洁地进行推理。

  第三,该团队还提出了一套训练方案,能以最少的计算量将一个 14B 预训练基础模型提升到前沿数学推理水平。

  不同于先前的研究(在强化学习之前应用推理密集型 SFT ),该团队从非推理 SFT 阶段开始 —— 仅用于灌输一般的指令遵循、编程工具使用和格式,而不增强推理能力deepseek。这可避免潜在的 SFT 过拟合,并保持初始平均响应较短,从而使强化学习能够更有效地培养推理能力,同时充分利用模型的预训练能力。

  然后,该团队使用 GRPO-RoC 进行多阶段强化学习训练,逐渐增加任务难度和最大训练时长。不同于之前的强化学习方法,这些方法需要将 rollout 规模大幅扩展至 16K→48K 甚至更高,该团队将每个阶段的长度限制在较短的范围内(8K→12K)。这可显著降低强化学习成本,同时鼓励更高效的推理策略。

  该模型仅需510个强化学习步骤,即可快速实现前沿水平的数学推理,展现出强大的能力和卓越的训练效率。

  最终,使用新方法,他们训练得到了一个模型并将其命名为 rStar2-Agent-14B。它只有 14B 大小,但却实现了超越 DeepSeek-R1 和 Kimi k1.5 等领先推理模型的强大数学推理性能。

  它在 GPQA-Diamond 科学推理基准上的表现优于 DeepSeek-V3,在 BFCL v3 的智能体工具使用任务上也表现不错,并在 IFEval 和 Arena-Hard 等通用基准测试中取得了具有竞争力的结果。

  该团队还报告了未成功的尝试和分析,并重点介绍了由 rStar2-Agent 主动式强化学习带来的对更高级认知推理行为的发现,例如驱动更有效推理的环境反馈反思 token。原文出处:14B打败671B!微软rStar2-Agent在数学推理上超过DeepSeek-R1,感谢原作者,侵权必删!

标签: deepseek

“14B打败671B!微软rStar2-Agent在数学推理上超过DeepSeek” 的相关文章

实测低调上线的DeepSeek新模型:编程比Claude 4还能打,写作…还是算

实测低调上线的DeepSeek新模型:编程比Claude 4还能打,写作…还是算

  网友和媒体们隔三岔五就要催更一波,不是「压力给到梁文锋」,就是「全网都在等梁文锋回应」。尽管没有等到 DeepSeek R2,但 DeepSeek 今天还是正式上线并开源了新模型 De...

DeepSeek透露下一代国产芯片即将发布,半导体ETF半日大涨5.89%

DeepSeek透露下一代国产芯片即将发布,半导体ETF半日大涨5.89%

  AI应用落地正在加速,从算法突破向产业链传导的趋势更加明确,尤其在算力需求扩张背景下,带动对半导体设备的投资预期显著增强。   8月22日上午收盘,市场早盘震荡走高,...

通信行业动态报告:DEEPSEEK更新大模型 英伟达发布SCALE-ACROSS

通信行业动态报告:DEEPSEEK更新大模型 英伟达发布SCALE-ACROSS

  DeepSeek V3.1发布,采用支持“思考”与“非思考”的混合推理架构,同时新的大模型通过训练后优化,在编程、搜索等Agent上表现获得较大提升。DeepSeek-V3.1 使用...

南京片仔癀博物馆祝贺DeepSeek赋能财务知识培训会成功召开

南京片仔癀博物馆祝贺DeepSeek赋能财务知识培训会成功召开

  近日,常州航天信息分公司在常瑞宾馆举办DeepSeek赋能财务:解锁财务工作自动化线下课,来自常州各地区企业财务总监,财务经理,税务会计,会计人员110余人参加此次培训,带大家探索智能...

DeepSeek-V3.1发布!“FP8 精度”如何赋能国产AI?

DeepSeek-V3.1发布!“FP8 精度”如何赋能国产AI?

  近期,DeepSeek正式发布DeepSeek-V3.1,官方称其为“迈向Agent(智能体)时代的第一步”。DeepSeek新模型的升级亮点有哪些?备受关注的“FP8精度”意味着什么...

陈天桥联手清华教授代季峰首发最强开源AI模型项目,全力打造下一个DeepSeek

陈天桥联手清华教授代季峰首发最强开源AI模型项目,全力打造下一个DeepSeek

  国内 AI 领域科学家、清华大学电子工程系副教授代季峰,与创新企业家、慈善家、天桥脑科学研究院创始人陈天桥联手筹备一家致力于打造通用人工智能(AGI)新公司一事,引发广泛关注。...