阿里巴巴(09988)开源新架构Qwen3-Next 训练成本大幅下降 引入混合注意力机制

智通财经APP获悉,9月12日,阿里巴巴(09988)通义发布下一代基础模型架构Qwen3-Next,并开源了基于该架构的 Qwen3-Next-80B-A3B 系列模型。该模型包含两个版本:更擅长理解和执行指令的指令(Insctruct)模型,以及更擅长多步推理和深度思考的推理(Thinking)模型。

据介绍,相比Qwen3的MoE(混合专家)模型结构,Qwen3-Next进行了以下核心改进:混合注意力机制、高稀疏度MoE结构、一系列训练稳定友好的优化,以及提升推理效率的多token预测机制(简称MTP,Multiple-Token Prediction)。

具体表现方面,新模型总参数80B仅激活3B,性能可媲美千问3旗舰版235B模型,模型计算效率大幅提升。Qwen3-Next训练成本较密集模型Qwen3-32B大降超90%,长文本推理吞吐量提升10倍以上,并可支持百万Tokens(文本处理的最小单位‌)超长上下文。

阿里巴巴通义团队指出,高稀疏MoE架构是Qwen3-Next面向下一代模型的最新探索。当前,MoE是主流大模型都采用的架构,通过激活大参数中的小部分专家完成推理任务。此前,Qwen3系列的MoE专家激活比约为1比16,而Qwen3-Next通过更精密的高稀疏MoE架构设计,实现了1比50的极致激活比。

暂无介绍....

延伸阅读:

腾讯入股帆礼生物技术公司

人民财讯10月29日电,企查查APP显示,近日,帆礼生物技术(宁波)有限公司发生工商变更,新增广西腾讯创业投资有限公司等...

摸鱼小能手
2025年10月29日
法国巴黎银行:微软(MSFT.US)与OpenAI修订协议落定 为AI进一步加速铺平道路

智通财经APP获悉,法国巴黎银行(BNP Paribas)周二表示,微软(MSFT.US)与OpenAI修订的协议为“人...

八卦小灵通
2025年10月29日
解码光的“指纹”(下):如何将光学分析实验室“装进”芯片

在上篇中,我们回顾了光谱学如何成为科学家手中解读物质“光学指纹”的利器。但传统光谱仪的“庞大身躯”仍是其走向更广阔天地的...

八卦小灵通
2025年10月29日
四维超声技术清晰呈现器官细微血流,为研究和诊断血液循环疾病提供新视角

来源:科技日报科技日报记者 张梦然法国科学家开发出一种全新超声成像技术,首次在四个维度(三维空间+时间)对活体心脏、肾脏...

摸鱼小能手
2025年10月29日
超微导管可安全穿行于最细脑血管

来源:科技日报科技日报记者 刘霞瑞士洛桑联邦理工学院与加拿大多伦多西部医院科研团队合作,研制出一种超微型、高柔性的神经血...

摸鱼小能手
2025年10月29日