智能新引擎:字节跳动开源大模型引领行业变革
近日,字节跳动在人工智能领域再次迈出重要一步。其旗下Seed团队正式推出Seed-OSS系列大模型,这一系列包括三个版本:Seed-OSS-36B-Base(含合成数据)、Seed-OSS-36B-Base(不含合成数据)以及Seed-OSS-36B-Instruct(指令微调版)。该系列基于12万亿token的训练数据,展现出卓越的性能表现,成为当前开源模型中的佼佼者。
Seed-OSS系列模型现已全面开放,用户可通过Hugging Face和GitHub平台获取。具体链接如下:
Hugging Face地址:https://huggingface.co/ByteDance-Seed/Seed-OSS-36B-Instruct
项目地址:https://github.com/ByteDance-Seed/seed-oss
所有模型均采用Apache-2.0许可证,这意味着研究人员和开发者可以自由使用、修改并分发这些模型。这一举措不仅为开源社区注入了新的活力,也为AI技术的普及与应用提供了更多可能性。
Seed-OSS系列模型具备多项创新功能,其中最引人注目的是灵活的推理预算控制机制。用户可根据实际需求调整模型的推理长度,从而在效率与准确性之间找到最佳平衡点。这种动态控制能力显著提升了模型在复杂任务中的表现。
此外,Seed-OSS在推理能力方面进行了深度优化,不仅保持了通用语言理解的高水平,还特别针对逻辑推理和问题解决任务进行了增强。同时,模型还具备出色的智能体能力,能够高效处理涉及工具使用和多步骤任务的场景。
为支持研究工作,字节跳动在发布模型时还提供了两种预训练版本:一种包含合成指令数据,另一种则不包含。这种设计为研究者提供了更丰富的选择,有助于探索不同数据对模型性能的影响。
Seed-OSS系列模型的另一大亮点是其原生支持长达512K tokens的上下文窗口。这一能力远超当前主流模型,例如OpenAI的GPT-5系列,相当于可以处理约1600页的文本内容。这意味着模型能够更有效地处理长文档和复杂的推理链,适用于多种实际应用场景。
Seed-OSS的架构融合了多种先进设计,包括因果语言建模、分组查询注意力机制、SwiGLU激活函数、RMSNorm归一化方法以及RoPE位置编码。每个模型均包含360亿参数,并分布在64层网络中,词表规模达到15.5万。这种结构设计确保了模型在处理复杂任务时的稳定性和高效性。
在基准测试中,Seed-OSS系列模型表现出色。其中,Seed-OSS-36B-Base(含合成数据)版本在MMLU-Pro测试中获得65.1分,在MATH测试中取得81.7分;而不含合成数据的版本虽然略有差距,但仍具备较强的竞争力。Seed-OSS-36B-Instruct版本则在多个领域取得了突破性进展,如AIME24测试中获得91.7%的准确率,BeyondAIME测试中取得65分,均刷新了开源模型的纪录。
在代码生成方面,LiveCodeBench v6测试中得分达67.4,同样创下新高。而在长上下文处理任务中,RULER测试以94.6分成为目前开源模型中的最高分。
Seed-OSS还引入了“推理预算”机制,允许用户在模型输出答案前设定推理过程的长度。这一功能在Nvidia的Nemotron-Nano-9B-v2等模型中也有类似实现。通过合理设置预算值,开发者可以在性能与资源消耗之间找到最优解。
在实际运行过程中,模型会实时提示用户当前的token使用情况,帮助用户更好地管理计算资源。例如:“Got it, let’s try to solve this problem step by step. The problem says… I have used 129 tokens, and there are 383 tokens remaining for use.” 这种交互方式增强了用户体验,也提高了任务执行的透明度。
如果未设置推理预算,模型将默认以无限长度进行推理。但字节建议用户优先选择512的整数倍作为预算值,如512、1K、2K、4K、8K或16K。这些区间已通过大量训练优化,能有效提升模型表现。当预算设为0时,模型将直接输出答案,适用于简单任务。对于低于512的预算,建议统一设为0以确保稳定性。
延伸阅读:
维基的转身:当开放知识遇上AI付费时代
来源:环球网【环球网科技综合报道】在成立25周年之际,维基媒体基金会于1月15日官宣合作,与亚马逊、元宇宙平台公司、微软...
iPhone 17e曝光:灵动岛加持却暗藏取舍,平价旗舰的平衡术
来源:环球网【环球网科技综合报道】1月16日消息,外媒MacRumors日前披露了iPhone 17e的核心配置信息,这...
iPhone 18 Pro前瞻:技术革新引领智能手机新纪元
来源:环球网【环球网科技综合报道】距发布尚有8个月,iPhone 18 Pro系列已凭多项重磅升级传闻引发热议。1月16...
中国天眼揭开宇宙谜团:快速射电暴起源迎来突破性发现
这是来自遥远宇宙的问候——2007年,人类首次发现快速射电暴。那时起,一个谜题始终待解:这个宇宙中最神秘的射电爆发现象之...
宇宙深处的电波密语:“中国天眼”破译快速射电暴起源之谜
这是1月16日拍摄的“中国天眼”(无人机照片,维护保养期间拍摄)。新华社记者 欧东衢 摄 新华社贵阳1月16日电(记者...
