DeepSeek-R1 论文登上《自然》封面，通讯作者为梁文锋

IT之家 9 月 18 日消息，由 DeepSeek 团队共同完成、梁文锋担任通讯作者的 DeepSeek-R1 推理模型研究论文，登上了国际权威期刊《自然（Nature）》第 645 期的封面。与今年 1 月发布的 DeepSeek-R1 的初版论文相比，本次论文披露了更多模型训练的细节。

据悉，DeepSeek-R1 也是全球首个经过同行评审的主流大语言模型。Nature 评价道：目前几乎所有主流的大模型都还没有经过独立同行评审，这一空白“终于被 DeepSeek 打破”。

论文摘要显示，通用推理一直是人工智能（AI）领域一项长期且艰巨的挑战。近年来，以大型语言模型（LLMs）、和思维链（CoT）提示为代表的技术突破，已在基础推理任务上取得了显著成功。然而，这种成功在很大程度上依赖于大量人工标注的演示数据，且模型在处理更复杂问题时的能力仍显不足。

研究表明，大型语言模型的推理能力可通过纯强化学习（RL）来激发，无需依赖人工标注的推理轨迹。所提出的强化学习框架能够促进高级推理模式的自主形成，例如自我反思、验证和动态策略调整。

因此，经训练的模型在数学、编程竞赛和 STEM（科学、技术、工程、数学）领域等可验证任务上展现出更优异的性能，优于通过传统监督学习（基于人工演示数据）训练的同类模型。此外，这些大规模模型所呈现的自主形成的推理模式，可被系统性地用于指导和提升小型模型的推理能力。

IT之家附论文链接：

暂无介绍....

医械网	工业品资讯
广告位	广告位