DeepSeek-R1 论文登上《自然》封面,通讯作者为梁文锋
IT之家 9 月 18 日消息,由 DeepSeek 团队共同完成、梁文锋担任通讯作者的 DeepSeek-R1 推理模型研究论文,登上了国际权威期刊《自然(Nature)》第 645 期的封面。与今年 1 月发布的 DeepSeek-R1 的初版论文相比,本次论文披露了更多模型训练的细节。
据悉,DeepSeek-R1 也是全球首个经过同行评审的主流大语言模型。Nature 评价道:目前几乎所有主流的大模型都还没有经过独立同行评审,这一空白“终于被 DeepSeek 打破”。
论文摘要显示,通用推理一直是人工智能(AI)领域一项长期且艰巨的挑战。近年来,以大型语言模型(LLMs)、和思维链(CoT)提示为代表的技术突破,已在基础推理任务上取得了显著成功。然而,这种成功在很大程度上依赖于大量人工标注的演示数据,且模型在处理更复杂问题时的能力仍显不足。
研究表明,大型语言模型的推理能力可通过纯强化学习(RL)来激发,无需依赖人工标注的推理轨迹。所提出的强化学习框架能够促进高级推理模式的自主形成,例如自我反思、验证和动态策略调整。
因此,经训练的模型在数学、编程竞赛和 STEM(科学、技术、工程、数学)领域等可验证任务上展现出更优异的性能,优于通过传统监督学习(基于人工演示数据)训练的同类模型。此外,这些大规模模型所呈现的自主形成的推理模式,可被系统性地用于指导和提升小型模型的推理能力。
IT之家附论文链接:
延伸阅读:
从割裂的国别电信市场到整合为统一的“超级单一市场”欧盟推新法案为人工智能发展铺路
原标题:从割裂的国别电信市场到整合为统一的“超级单一市场”欧盟推新法案为人工智能发展铺路自欧盟委员会1月21日正式提出《...
美国宇航局(NASA)开始进行载人绕月飞行前的关键测试
IT之家 2 月 2 日消息,据央视新闻报道,当地时间 1 月 31 日,美国宇航局(NASA)开始为期两天的模拟倒计时...
雷军:新一代SU7研发测试已完成,春节前展车陆续到店
昨日雷军在直播中表示新一代SU7上市前的研发测试工作已完成。预计2月13号开始,新一代SU7展车会陆续在北京、上海、深圳...
比亚迪2026年1月新能源汽车销量同比下降30.11%,纯电动汽车销量同比下降33.60%
2月1日,比亚迪(002594.SZ)发布2026年1月产销快报。数据显示,2026年1月比亚迪实现新能源汽车销量210...
