阿里开源新架构Qwen3-Next,模型训练成本降9成,长文本推理吞吐提升10倍

每经杭州9月12日电(记者叶晓丹)9月12日,阿里通义发布下一代基础模型架构Qwen3-Next。Qwen3-Next针对大模型在上下文长度和总参数两方面不断扩展(Scaling)的未来趋势而设计,采用全新的高稀疏MoE架构,并对经典Transformer核心组件进行了重构,创新采用线性注意力和自研门控注意力结合的混合注意力机制,实现了模型训练和推理的双重性价比突破。

基于这一新架构,阿里通义“打样”了Qwen3-Next-80B-A3B系列模型,开源指令(Instruct)和推理(Thinking)两大模型版本。新模型总参数80B仅激活3B,性能可媲美千问3旗舰版235B模型,模型计算效率大幅提升。Qwen3-Next训练成本较密集模型Qwen3-32B大降超90%,长文本推理吞吐量提升10倍以上,并可支持百万Tokens(文本处理的最小单位‌)超长上下文。

暂无介绍....

延伸阅读:

库克称AirPods Pro 3太火了,苹果始料未及

IT之家 1 月 30 日消息,路透社今天(1 月 30 日)发布博文,报道称在 2026 财年第 1 财季(截至 20...

娱乐早知道
2026年1月30日
金银、美股巨震

隔夜外围市场掀起大风暴。加密货币市场全线暴跌,比特币暴跌超5%,以太坊、狗狗币等均暴跌超6%。据CoinGlass数据统...

八卦小灵通
2026年1月30日
中信证券:海外AI模型与应用密集催化推动下 算力产业链或迎来新一轮上涨

智通财经APP获悉,中信证券发布研报称,近期,海外推理和训练算力需求旺盛,亚马逊云和谷歌云双双涨价。推理侧、训练侧对于云...

八卦小灵通
2026年1月30日
新研究揭示开源AI模型安全风险:若脱离限制运行或将被黑客劫持

IT之家 1 月 30 日消息,路透社 1 月 29 日援引一项最新研究称,开源大语言模型若脱离主流平台的护栏与限制,在...

娱乐大事件
2026年1月30日
iPhone录得历史最佳季度表现,但苹果预计存储涨价将影响毛利率

当地时间1月29日,苹果发布了截至2025年12月27日的2026财年第一季度财报。该季度苹果营收1437.6亿美元,同...

八卦小灵通
2026年1月30日