迪士尼彩乐园5 200行代码,超低本钱复现DeepSeek R1「Aha Moment」!复旦大学开源

AIxiv专栏是机器之心发布学术、本领本色的栏目。当年数年,机器之心AIxiv专栏罗致报说念了2000多篇本色,遮蔽环球各大高校与企业的顶级本质室,有用促进了学术换取与传播。若是您有优秀的责任想要共享,接待投稿或者关连报说念。投稿邮箱:[email protected][email protected]

本文是复旦大学学问工厂本质室肖仰华素质、梁家卿后生副盘考员科研团队的最新盘考效果,他们用大略的代码高效复现了 R1-zero 的自觉反念念材干。

在对于 DeepSeek 的著作中,咱们会屡次听到「Aha Moment」这个词。它指的是模子在稽察经过中资格的一种顿悟时辰,推崇为模子倏得展现出近似东说念主类的自我反念念和战略转念材干。

DeepSeek 论文中提到的 Aha Moment。

DeepSeek-R1-zero 经过强化学习结束了大模子顿悟时辰的自觉清爽,激发了开阔对其决策的解读与复现责任。

其中,基于 GRPO( Group Relative Policy Optimization)强化学习决策尤其受到眷注。业界先后开源了多个基于 GRPO 算法的 R1-zero 复现格局。关联词,这些复现格局严重依赖一些复杂代码框架,有着较高的代码结束复杂度,对部署环境存在较高依赖,资源专揽率不高,代码可读性与可重视性仍存在蜕变空间。

对此,复旦大学学问工厂本质室肖仰华素质、梁家卿后生副盘考员科研团队基于 GRPO 算法念念想高效复现了 R1-zero 自觉反念念材干。当今,该格局(Simple-GRPO)的初版代码结束依然开源并提交 Github。

代码地址:https://github.com/lsdefine/simple_GRPO。

该格局相对于现存开源的 R1-zero 复现具有以下上风:

代码大略,依赖浅易,只需要 200 多行;

现年45岁的萨尔瓦多来自西班牙,曾长期担任西甲马竞、比利亚雷亚尔等俱乐部各级梯队主教练,还曾出任过西班牙莱万特足球俱乐部、哥伦比亚卡利美洲足球俱乐部、哥伦比亚恩维加多足球俱乐部的一线队主教练。

资源奢华低,通过模子解耦与分辩进一步裁汰算力需求,该格局提拔在一张 A800 (80G) 加一张 3090 (24G) 完成 7B 模子的稽察。凭据 AutoDL 平台计费顺次,一张 A800 (80G) 5.98 元 / 时,一张 3090 (24G) 1.32 元 / 时。以格局作家陶冶,模子在这么的算力平台下,稽察 1h 模子就能出现 aha moment,折合东说念主民币 7.3 元,单次本质本钱压缩至奶茶价钱区间。

格局先容

本格局代码浅易,GRPO 算法结束仅有 200 多行代码,且仅依赖基础的深度学习代码库,如 deepspeed 和 torch,而无需 ray 等复杂框架。具体结束细节如下:

① 参考模子分辩:

在结束经过中,参考模子(reference model)被解耦,允许其在不同的 GPU 上运行(以致不错运行在 3090 显卡上)。这幸免了将参考模子和稽察模子放在吞并个 GPU 上,防备 torch 的多程度机制创建多个副本,幸免显存浪费,并使得在 A800(80G)上稽察 7B 模子成为可能。

② 中枢失掉蓄意:

失掉蓄意公式基于 Hugging Face 的 trl 结束。

③ 稽察环境与经过

格局在 1 张 A800(80G)显卡上用 Zero-Stage 2 作念优化,使用另一张 A800(80G)显卡进行参考模子的推理,迪士尼彩乐园Ⅱ参考模子分辩使得 GRPO 的稽察愈加高效。

在以上稽察环境中,Qwen2.5-3B 稽察 60 步需要 12 分 34 秒,Qwen2.5-7B 稽察 60 步需要 16 分 40 秒。其中在前 30 步优化中,Qwen2.5-7B 和 Qwen2.5-3B 的输出本色中,均出现了「顿悟时辰」气候。示举例下:

Qwen2.5-3B(要领 20)

其中语翻译如下:

... 要找出卡姆登画的鸡蛋比阿诺德多若干,咱们从卡姆登画的鸡蛋数目中减去阿诺德画的鸡蛋数目。是以,21-28 = -7。关联词,这个截止在问题的配景下没特意旨,因为卡姆登画的鸡蛋不成能比阿诺德少。让咱们从头商酌领先的处理决策要领:咱们应该考据对于卡姆登和莎拉的鸡蛋之间关系的入手假定是否正确 。...

-7

Qwen2.5-7B(要领 20)

其中语翻译如下:

... 因此,Joanne 从等闲树上摘了 350 个苹果。然而,这似乎不合,因为总和应该是 500 个,而咱们依然蓄意了 150 个,只剩下 350 个等闲树上的苹果,这与总和相矛盾。让咱们从头评估一下。...

350

本质截止

使用 Qwen2.5-3B 和 Qwen2.5-7B 动作基础模子,测试了模子稽察经过中正确率(左图)和步地恪守材干(右图)的变化情况,相比相宜预期。

Qwen2.5-3B:

在 GSM8K 和 Math 搀杂数据集进行稽察,从上图不错看出,Qwen2.5-3B 的准确率在资格 5 步的优化后能踏真的 60% 以上,最高能达到 70% 傍边;步地恪守材干在 30 步以后接近 100%.

Qwen2.5-7B

在 GSM8K 数据集上进行稽察,从上图不错看出,Qwen2.5-7B 的不管是准确率如故步地恪守材干齐能在三十步以内快速管理,准确率(左图)永恒保握在 90% 以上,步地恪守材干(右图)到达 100%.

蜕变标的

近期本格局将进一步推出以下标的的优化版块,敬请眷注。

组内谜底同质性问题

凭据 GRPO 算法中的分组战略,当组内谜底沿路正确或全为子虚时,奖励函数无法有用分派各异化奖励,强化学习将穷乏对比性的稽察信号,导致模子难以管理。后续将在稽察经过中及时监控谜底漫步,对同质化的谜底进行从头采样和分组,以提供有用的对比信号。

长念念维链(CoT)显存占用问题

当模子生成较长的念念维链(CoT)时,由于文本序列长度较长,显存占用会显赫增多。对此,后续商酌拆分组别,减小批次大小,或对长序列分阶段处理,以减小稽察经过中的 GPU 内存支出,素质稽察着力。

最新资讯