阿里开源新架构Qwen3-Next,模型训练成本降9成,长文本推理吞吐提升10倍

每经杭州9月12日电(记者叶晓丹)9月12日,阿里通义发布下一代基础模型架构Qwen3-Next。Qwen3-Next针对大模型在上下文长度和总参数两方面不断扩展(Scaling)的未来趋势而设计,采用全新的高稀疏MoE架构,并对经典Transformer核心组件进行了重构,创新采用线性注意力和自研门控注意力结合的混合注意力机制,实现了模型训练和推理的双重性价比突破。

基于这一新架构,阿里通义“打样”了Qwen3-Next-80B-A3B系列模型,开源指令(Instruct)和推理(Thinking)两大模型版本。新模型总参数80B仅激活3B,性能可媲美千问3旗舰版235B模型,模型计算效率大幅提升。Qwen3-Next训练成本较密集模型Qwen3-32B大降超90%,长文本推理吞吐量提升10倍以上,并可支持百万Tokens(文本处理的最小单位‌)超长上下文。

暂无介绍....

延伸阅读:

美国FTC为何向七家科技公司发出调查令

当地时间周四(9月11日),美国联邦贸易委员会(FTC)宣布,已向Alphabet、Meta、OpenAI、xAI和Sn...

摸鱼小能手
2025年9月12日
前特斯拉工程师指责马斯克“背叛了特斯拉的使命”

IT之家 9 月 12 日消息,在特斯拉工作 9 年的工程师 Giorgio Balestrieri 昨天于领英平台公布...

娱乐早知道
2025年9月12日
小鹏 P7+ 宣布升级:NGP智能辅助驾驶将从 60km/h 提速至 130km/h

IT之家 9 月 12 日消息,小鹏汽车今日宣布,小鹏 P7 + 智能辅助驾驶再进化,NGP 人机共驾即将全面提速,60...

摸鱼小能手
2025年9月12日
华为老兵携AI独角兽冲刺港股,流着血狂奔

文|财华社人工智能概念股在港股市场成为热逐的焦点。Wind数据显示,今年以来,多只概念股涨势喜人:美图(01357.HK...

娱乐大事件
2025年9月12日
阿里巴巴(09988)开源新架构Qwen3-Next 训练成本大幅下降 引入混合注意力机制

智通财经APP获悉,9月12日,阿里巴巴(09988)通义发布下一代基础模型架构Qwen3-Next,并开源了基于该架构...

八卦小灵通
2025年9月12日