DeepSeek新模型曝光:MODEL1代码预示新架构,最快有望2月发布

IT之家 1 月 21 日消息,The Information 月初爆料称,DeepSeek 将在今年 2 月中旬农历新年期间推出新一代旗舰 AI 模型 ——DeepSeek V4,将具备更强的写代码能力。

1 月 20 日,正值 DeepSeek-R1 发布一周年之际,有开发者发现 DeepSeek 在 GitHub 中更新了一系列 FlashMLA 代码,横跨 114 个文件中有 28 处都提到了未知的“MODEL1”大模型标识符。

该标识符与已知的现有模型“V32”(即 DeepSeek-V3.2)被并列或区别提及。根据代码上下文分析,“MODEL1”很可能代表一个不同于现有架构的新模型。

开发者分析认为,“MODEL1”与“V32”在关键技术上存在区别,主要体现在键值(KV)缓存的布局、稀疏性处理方式以及对 FP8 数据格式的解码支持等方面。这些差异表明新架构可能在内存优化和计算效率上进行了针对性设计。

此前,DeepSeek 研究团队还陆续发布了两篇技术论文,分别介绍了名为“优化残差连接(mHC)”的新训练方法,以及一种受生物学启发的“AI 记忆模块(Engram)”。这一举动不禁引起用户猜测,DeepSeek 正在开发中的新模型有可能会整合这些最新的研究成果。敬请期待。

暂无介绍....

延伸阅读:

依托双资本平台 赛力斯产融结合启新程

证券时报记者 唐强“十四五”时期,赛力斯深耕高端智能网联新能源汽车赛道,实现经营质效与品牌价值的双重跃升,成为重庆高质量...

娱乐大事件
2026年1月21日
奈飞改为全现金收购华纳兄弟探索 意在压制派拉蒙竞购

来源:央视新闻客户端央视记者当地时间1月20日获悉,美国流媒体平台奈飞公司已将对华纳兄弟旗下影视制作与流媒体资产的收购方...

娱乐大事件
2026年1月21日
提供安全可靠的低轨卫星互联网服务(创新故事)

胡海鹰卫星正将通信的边界从地面拓展至太空,让“无处不联”成为现实。研制千帆星座的目的就是为全球提供高速、实时、安全、可靠...

娱乐早知道
2026年1月21日
中文失语患者有望重获“新声”

来源:人民日报海外版语言脑机接口技术与人工智能和具身智能技术融合。中科院上海微系统与信息技术研究所供图中科院上海微系统与...

娱乐大事件
2026年1月21日
最新!上海社科院发布蓝皮书:AI驱动科研革命,“第五范式”来了

1月20日,上海社会科学院重大科研成果《全球信息社会发展报告(2025)》蓝皮书发布会暨智能体赋能信息社会高质量发展研讨...

八卦小灵通
2026年1月21日