阿里开源新架构Qwen3-Next,模型训练成本降9成,长文本推理吞吐提升10倍
每经杭州9月12日电(记者叶晓丹)9月12日,阿里通义发布下一代基础模型架构Qwen3-Next。Qwen3-Next针对大模型在上下文长度和总参数两方面不断扩展(Scaling)的未来趋势而设计,采用全新的高稀疏MoE架构,并对经典Transformer核心组件进行了重构,创新采用线性注意力和自研门控注意力结合的混合注意力机制,实现了模型训练和推理的双重性价比突破。
基于这一新架构,阿里通义“打样”了Qwen3-Next-80B-A3B系列模型,开源指令(Instruct)和推理(Thinking)两大模型版本。新模型总参数80B仅激活3B,性能可媲美千问3旗舰版235B模型,模型计算效率大幅提升。Qwen3-Next训练成本较密集模型Qwen3-32B大降超90%,长文本推理吞吐量提升10倍以上,并可支持百万Tokens(文本处理的最小单位)超长上下文。
上一篇
E句话| 乃万称目前单身
延伸阅读:
人工智能创新峰会落地厦门 共绘智能未来新蓝图
来源:环球网12月12日,第六届中国人工智能大赛配套论坛在厦门成功举办。本届大赛由国家互联网信息办公室、公安部指导,国家...
全球贸易稳步增长,中国跨境电商持续发力
21世纪经济报道记者 董静怡海关总署:今年前11个月我国货物贸易进出口同比增长3.6%海关总署12月8日对外公布,今年前...
美团电商入口悄然下线,战略重心转向新方向
12月15日,美团团好货业务发布内部邮件,宣布食杂零售管理团队经研究决定,暂停团好货业务,聚焦探索零售新业态。公开资料显...
AI训练新视角:CMU揭示RL在推理模型中的真正价值
机器之心报道机器之心编辑部近期,强化学习(RL)技术在提升语言模型的推理能力方面取得了显著成效。然而,后训练究竟是真正扩...
