阿里巴巴(09988)开源新架构Qwen3-Next 训练成本大幅下降 引入混合注意力机制

智通财经APP获悉,9月12日,阿里巴巴(09988)通义发布下一代基础模型架构Qwen3-Next,并开源了基于该架构的 Qwen3-Next-80B-A3B 系列模型。该模型包含两个版本:更擅长理解和执行指令的指令(Insctruct)模型,以及更擅长多步推理和深度思考的推理(Thinking)模型。

据介绍,相比Qwen3的MoE(混合专家)模型结构,Qwen3-Next进行了以下核心改进:混合注意力机制、高稀疏度MoE结构、一系列训练稳定友好的优化,以及提升推理效率的多token预测机制(简称MTP,Multiple-Token Prediction)。

具体表现方面,新模型总参数80B仅激活3B,性能可媲美千问3旗舰版235B模型,模型计算效率大幅提升。Qwen3-Next训练成本较密集模型Qwen3-32B大降超90%,长文本推理吞吐量提升10倍以上,并可支持百万Tokens(文本处理的最小单位‌)超长上下文。

阿里巴巴通义团队指出,高稀疏MoE架构是Qwen3-Next面向下一代模型的最新探索。当前,MoE是主流大模型都采用的架构,通过激活大参数中的小部分专家完成推理任务。此前,Qwen3系列的MoE专家激活比约为1比16,而Qwen3-Next通过更精密的高稀疏MoE架构设计,实现了1比50的极致激活比。

暂无介绍....

延伸阅读:

库克称AirPods Pro 3太火了,苹果始料未及

IT之家 1 月 30 日消息,路透社今天(1 月 30 日)发布博文,报道称在 2026 财年第 1 财季(截至 20...

娱乐早知道
2026年1月30日
金银、美股巨震

隔夜外围市场掀起大风暴。加密货币市场全线暴跌,比特币暴跌超5%,以太坊、狗狗币等均暴跌超6%。据CoinGlass数据统...

八卦小灵通
2026年1月30日
中信证券:海外AI模型与应用密集催化推动下 算力产业链或迎来新一轮上涨

智通财经APP获悉,中信证券发布研报称,近期,海外推理和训练算力需求旺盛,亚马逊云和谷歌云双双涨价。推理侧、训练侧对于云...

八卦小灵通
2026年1月30日
新研究揭示开源AI模型安全风险:若脱离限制运行或将被黑客劫持

IT之家 1 月 30 日消息,路透社 1 月 29 日援引一项最新研究称,开源大语言模型若脱离主流平台的护栏与限制,在...

娱乐大事件
2026年1月30日
iPhone录得历史最佳季度表现,但苹果预计存储涨价将影响毛利率

当地时间1月29日,苹果发布了截至2025年12月27日的2026财年第一季度财报。该季度苹果营收1437.6亿美元,同...

八卦小灵通
2026年1月30日