DeepSeek研究员在线爆料：过年都没歇还有大招！|游民星空

大年初四Daya Guo发了一条推文，透露了春节期间让他最兴奋的事情，亲眼见证了R1-Zero模型性能曲线的 “持续增长”，并且直言感受到了强化学习（RL）的强大力量。

Daya Guo回复了网友有关DeepSeek R1的一些问题，以及接下来的公司的计划，只能说DeepSeek的R1仅仅只是开始，内部研究还在快速推进，DeepSeek的研究员过年都没歇，一直在爆肝推进研究，接下来DeepSeek还有大招。

网友提问：“如果不是秘密的话：这次RL训练跑了多久？”对此，Daya Guo表示，660B参数的R1-Zero和R1是在V3发布之后才开始跑的，训练大约花了2-3周。

此外，他还表示在尝试将R1应用于形式化证明环境，希望尽快向社区发布更好的模型。听Daya Guo的意思，他们在这方面已经有进展，未来可能会有更重磅的模型发布！期待值拉满！

责任编辑：心态良好的胖子

DeepSeek研究员在线爆料：过年都没歇还有大招！