阿里开源新架构Qwen3-Next,模型训练成本降9成,长文本推理吞吐提升10倍

每经杭州9月12日电(记者叶晓丹)9月12日,阿里通义发布下一代基础模型架构Qwen3-Next。Qwen3-Next针对大模型在上下文长度和总参数两方面不断扩展(Scaling)的未来趋势而设计,采用全新的高稀疏MoE架构,并对经典Transformer核心组件进行了重构,创新采用线性注意力和自研门控注意力结合的混合注意力机制,实现了模型训练和推理的双重性价比突破。

基于这一新架构,阿里通义“打样”了Qwen3-Next-80B-A3B系列模型,开源指令(Instruct)和推理(Thinking)两大模型版本。新模型总参数80B仅激活3B,性能可媲美千问3旗舰版235B模型,模型计算效率大幅提升。Qwen3-Next训练成本较密集模型Qwen3-32B大降超90%,长文本推理吞吐量提升10倍以上,并可支持百万Tokens(文本处理的最小单位‌)超长上下文。

暂无介绍....

延伸阅读:

人工智能创新峰会落地厦门 共绘智能未来新蓝图

来源:环球网12月12日,第六届中国人工智能大赛配套论坛在厦门成功举办。本届大赛由国家互联网信息办公室、公安部指导,国家...

娱乐早知道
2025年12月15日
全球贸易稳步增长,中国跨境电商持续发力

21世纪经济报道记者 董静怡海关总署:今年前11个月我国货物贸易进出口同比增长3.6%海关总署12月8日对外公布,今年前...

娱乐早知道
2025年12月15日
美团电商入口悄然下线,战略重心转向新方向

12月15日,美团团好货业务发布内部邮件,宣布食杂零售管理团队经研究决定,暂停团好货业务,聚焦探索零售新业态。公开资料显...

摸鱼小能手
2025年12月15日
智能教育新合作 智能健康新体验

粉笔与华图达成战略合作,双方将互相参股、成立合资公司12月14日消息,粉笔与华图山鼎达成深度战略合作,将在服务深度、成本...

八卦小灵通
2025年12月15日
AI训练新视角:CMU揭示RL在推理模型中的真正价值

机器之心报道机器之心编辑部近期,强化学习(RL)技术在提升语言模型的推理能力方面取得了显著成效。然而,后训练究竟是真正扩...

八卦小灵通
2025年12月15日
🧟 AI 助手