阿里巴巴(09988)开源新架构Qwen3-Next 训练成本大幅下降 引入混合注意力机制
智通财经APP获悉,9月12日,阿里巴巴(09988)通义发布下一代基础模型架构Qwen3-Next,并开源了基于该架构的 Qwen3-Next-80B-A3B 系列模型。该模型包含两个版本:更擅长理解和执行指令的指令(Insctruct)模型,以及更擅长多步推理和深度思考的推理(Thinking)模型。
据介绍,相比Qwen3的MoE(混合专家)模型结构,Qwen3-Next进行了以下核心改进:混合注意力机制、高稀疏度MoE结构、一系列训练稳定友好的优化,以及提升推理效率的多token预测机制(简称MTP,Multiple-Token Prediction)。
具体表现方面,新模型总参数80B仅激活3B,性能可媲美千问3旗舰版235B模型,模型计算效率大幅提升。Qwen3-Next训练成本较密集模型Qwen3-32B大降超90%,长文本推理吞吐量提升10倍以上,并可支持百万Tokens(文本处理的最小单位)超长上下文。
阿里巴巴通义团队指出,高稀疏MoE架构是Qwen3-Next面向下一代模型的最新探索。当前,MoE是主流大模型都采用的架构,通过激活大参数中的小部分专家完成推理任务。此前,Qwen3系列的MoE专家激活比约为1比16,而Qwen3-Next通过更精密的高稀疏MoE架构设计,实现了1比50的极致激活比。
延伸阅读:
美国FTC为何向七家科技公司发出调查令
当地时间周四(9月11日),美国联邦贸易委员会(FTC)宣布,已向Alphabet、Meta、OpenAI、xAI和Sn...
前特斯拉工程师指责马斯克“背叛了特斯拉的使命”
IT之家 9 月 12 日消息,在特斯拉工作 9 年的工程师 Giorgio Balestrieri 昨天于领英平台公布...
小鹏 P7+ 宣布升级:NGP智能辅助驾驶将从 60km/h 提速至 130km/h
IT之家 9 月 12 日消息,小鹏汽车今日宣布,小鹏 P7 + 智能辅助驾驶再进化,NGP 人机共驾即将全面提速,60...
华为老兵携AI独角兽冲刺港股,流着血狂奔
文|财华社人工智能概念股在港股市场成为热逐的焦点。Wind数据显示,今年以来,多只概念股涨势喜人:美图(01357.HK...
阿里巴巴(09988)开源新架构Qwen3-Next 训练成本大幅下降 引入混合注意力机制
智通财经APP获悉,9月12日,阿里巴巴(09988)通义发布下一代基础模型架构Qwen3-Next,并开源了基于该架构...