阿里开源新架构Qwen3-Next,模型训练成本降9成,长文本推理吞吐提升10倍
每经杭州9月12日电(记者叶晓丹)9月12日,阿里通义发布下一代基础模型架构Qwen3-Next。Qwen3-Next针对大模型在上下文长度和总参数两方面不断扩展(Scaling)的未来趋势而设计,采用全新的高稀疏MoE架构,并对经典Transformer核心组件进行了重构,创新采用线性注意力和自研门控注意力结合的混合注意力机制,实现了模型训练和推理的双重性价比突破。
基于这一新架构,阿里通义“打样”了Qwen3-Next-80B-A3B系列模型,开源指令(Instruct)和推理(Thinking)两大模型版本。新模型总参数80B仅激活3B,性能可媲美千问3旗舰版235B模型,模型计算效率大幅提升。Qwen3-Next训练成本较密集模型Qwen3-32B大降超90%,长文本推理吞吐量提升10倍以上,并可支持百万Tokens(文本处理的最小单位)超长上下文。
上一篇
E句话| 乃万称目前单身
延伸阅读:
库克称AirPods Pro 3太火了,苹果始料未及
IT之家 1 月 30 日消息,路透社今天(1 月 30 日)发布博文,报道称在 2026 财年第 1 财季(截至 20...
中信证券:海外AI模型与应用密集催化推动下 算力产业链或迎来新一轮上涨
智通财经APP获悉,中信证券发布研报称,近期,海外推理和训练算力需求旺盛,亚马逊云和谷歌云双双涨价。推理侧、训练侧对于云...
新研究揭示开源AI模型安全风险:若脱离限制运行或将被黑客劫持
IT之家 1 月 30 日消息,路透社 1 月 29 日援引一项最新研究称,开源大语言模型若脱离主流平台的护栏与限制,在...
iPhone录得历史最佳季度表现,但苹果预计存储涨价将影响毛利率
当地时间1月29日,苹果发布了截至2025年12月27日的2026财年第一季度财报。该季度苹果营收1437.6亿美元,同...
