阿里巴巴(09988)开源新架构Qwen3-Next 训练成本大幅下降 引入混合注意力机制

智通财经APP获悉,9月12日,阿里巴巴(09988)通义发布下一代基础模型架构Qwen3-Next,并开源了基于该架构的 Qwen3-Next-80B-A3B 系列模型。该模型包含两个版本:更擅长理解和执行指令的指令(Insctruct)模型,以及更擅长多步推理和深度思考的推理(Thinking)模型。

据介绍,相比Qwen3的MoE(混合专家)模型结构,Qwen3-Next进行了以下核心改进:混合注意力机制、高稀疏度MoE结构、一系列训练稳定友好的优化,以及提升推理效率的多token预测机制(简称MTP,Multiple-Token Prediction)。

具体表现方面,新模型总参数80B仅激活3B,性能可媲美千问3旗舰版235B模型,模型计算效率大幅提升。Qwen3-Next训练成本较密集模型Qwen3-32B大降超90%,长文本推理吞吐量提升10倍以上,并可支持百万Tokens(文本处理的最小单位‌)超长上下文。

阿里巴巴通义团队指出,高稀疏MoE架构是Qwen3-Next面向下一代模型的最新探索。当前,MoE是主流大模型都采用的架构,通过激活大参数中的小部分专家完成推理任务。此前,Qwen3系列的MoE专家激活比约为1比16,而Qwen3-Next通过更精密的高稀疏MoE架构设计,实现了1比50的极致激活比。

暂无介绍....

延伸阅读:

突破HBM容量限制:铠侠宣布推出超高IOPS SSD,让GPU直连闪存

IT之家 3 月 17 日消息,铠侠今日亮相 NVIDIA GTC 2026 大会,并宣布推出一种全新类型的 SSD 产...

八卦小灵通
2026年3月17日
李彦宏牵头的AI生命科学公司赴港上市;永辉公开喊话山姆丨邦早报

【黄仁勋狂扔“核弹”:1万亿营收、LPU、太空芯片、一键“养虾”】北京时间今日凌晨,“AI春晚”英伟达年度GTC大会拉开...

娱乐大事件
2026年3月17日
高盛快评黄仁勋GTC讲话:满足了投资者两项关键预期

英伟达首席执行官黄仁勋在GTC 2026大会上的主题演讲释放出强劲的长期增长信号,成功满足了市场对算力需求前景和推理市场...

娱乐早知道
2026年3月17日
GTC2026|美光科技开始为英伟达量产HBM4内存,速率比上一代HBM3E提升约2.3倍

3月17日,在今天凌晨进行的英伟达 GPU 技术大会(GTC)中,美光宣布旗下多款存储产品已同步进入大规模量产阶段,这些...

娱乐大事件
2026年3月17日
英伟达发布“太空算力模块”,“太空版” Vera Rubin后续将推出

英伟达正将其AI计算版图延伸至地球轨道。在隔夜GTC年度开发者大会上,英伟达宣布推出面向太空场景的专用计算模块,并披露了...

摸鱼小能手
2026年3月17日