DeepSeek新模型曝光:MODEL1代码预示新架构,最快有望2月发布
IT之家 1 月 21 日消息,The Information 月初爆料称,DeepSeek 将在今年 2 月中旬农历新年期间推出新一代旗舰 AI 模型 ——DeepSeek V4,将具备更强的写代码能力。
1 月 20 日,正值 DeepSeek-R1 发布一周年之际,有开发者发现 DeepSeek 在 GitHub 中更新了一系列 FlashMLA 代码,横跨 114 个文件中有 28 处都提到了未知的“MODEL1”大模型标识符。
该标识符与已知的现有模型“V32”(即 DeepSeek-V3.2)被并列或区别提及。根据代码上下文分析,“MODEL1”很可能代表一个不同于现有架构的新模型。
开发者分析认为,“MODEL1”与“V32”在关键技术上存在区别,主要体现在键值(KV)缓存的布局、稀疏性处理方式以及对 FP8 数据格式的解码支持等方面。这些差异表明新架构可能在内存优化和计算效率上进行了针对性设计。
此前,DeepSeek 研究团队还陆续发布了两篇技术论文,分别介绍了名为“优化残差连接(mHC)”的新训练方法,以及一种受生物学启发的“AI 记忆模块(Engram)”。这一举动不禁引起用户猜测,DeepSeek 正在开发中的新模型有可能会整合这些最新的研究成果。敬请期待。
延伸阅读:
周浩能给千问带来什么?答案就在他为Gemini所做的工作之中
林俊旸深夜发文“告别”千问,在AI圈中引起轩然大波,也让“周浩”这个名字进入公众视野。2026年1月,周浩低调加入阿里,...
MWC 2026:当AI拥有“身体”,中国掌握"造物权"
2026年,从虚拟世界走向现实世界,AI有了新的叙事。两个月前的CES上,物理AI成为全球科技的焦点,上千家展商展示了众...
江河联评丨郑州 合肥 成都 西安 四帆竞发智能车
江河奔腾,两会聚智。郑州、合肥、成都、西安,被誉为中西部新能源汽车 “四大黑马城市”。四城同处内陆腹地,各握一手好牌。《...
联想系新机测试2亿像素长焦,1.5K屏幕推进遇阻?
IT之家 3 月 6 日消息,博主 @数码闲聊站 今天在微博表示,联想系新机正在测试 2 亿像素大底潜望长焦,最快今年就...
