阿里巴巴(09988)开源新架构Qwen3-Next 训练成本大幅下降 引入混合注意力机制

智通财经APP获悉,9月12日,阿里巴巴(09988)通义发布下一代基础模型架构Qwen3-Next,并开源了基于该架构的 Qwen3-Next-80B-A3B 系列模型。该模型包含两个版本:更擅长理解和执行指令的指令(Insctruct)模型,以及更擅长多步推理和深度思考的推理(Thinking)模型。

据介绍,相比Qwen3的MoE(混合专家)模型结构,Qwen3-Next进行了以下核心改进:混合注意力机制、高稀疏度MoE结构、一系列训练稳定友好的优化,以及提升推理效率的多token预测机制(简称MTP,Multiple-Token Prediction)。

具体表现方面,新模型总参数80B仅激活3B,性能可媲美千问3旗舰版235B模型,模型计算效率大幅提升。Qwen3-Next训练成本较密集模型Qwen3-32B大降超90%,长文本推理吞吐量提升10倍以上,并可支持百万Tokens(文本处理的最小单位‌)超长上下文。

阿里巴巴通义团队指出,高稀疏MoE架构是Qwen3-Next面向下一代模型的最新探索。当前,MoE是主流大模型都采用的架构,通过激活大参数中的小部分专家完成推理任务。此前,Qwen3系列的MoE专家激活比约为1比16,而Qwen3-Next通过更精密的高稀疏MoE架构设计,实现了1比50的极致激活比。

暂无介绍....

延伸阅读:

AI辅助教学的边界在哪里?

一个班级四五十人的作业,只需花两三分钟扫描录入,就可借助AI在十分钟内全部批改完成,对于学校新引进的AI作业批改机,重庆...

八卦小灵通
2025年12月12日
博通的AI布局迎来新机遇,高盛持续看好其长期价值

尽管博通未能如部分投资者预期那样上调2026财年的全年业绩指引,并在短期内可能面临股价回调压力,但高盛依然重申了对该公司...

娱乐大事件
2025年12月12日
新型硅碳复合负极材料取得重大突破 为高稳定性电池研发开辟新路径

人民财讯12月12日电,近期,中国科学院合肥物质院固体所王振洋研究员团队在锂离子电池硅碳复合负极材料领域取得系列进展。团...

八卦小灵通
2025年12月12日
智能硬件新风口:京东高薪引才布局端侧AI芯片

据《科创板日报》报道,京东正在招募端侧AI芯片领域人才,招聘方向集中在存算一体AI芯片领域,产品可能用于机器人、智能家电...

八卦小灵通
2025年12月12日
米老鼠助力Sora?OpenAI与迪士尼达成重磅合作

天下果然没有免费的午餐!为了让“米老鼠”加入Sora,OpenAI刚刚正式官宣与迪士尼达成合作。协议内容之一即为,Ope...

摸鱼小能手
2025年12月12日
🧟 AI 助手