杨植麟交卷!Kimi K2.6抢先开源,指挥300个Agent上岗,实测手搓3D格斗游戏

智东西作者 江宇编辑 心缘

智东西4月21日报道,昨夜,Kimi正式发布并开源旗舰模型K2.6,带来其迄今最强的代码能力、长程任务执行和Agent集群能力。

根据官方公布的多项基准测试,Kimi K2.6在博士级难度的“人类最后的考试”(Humanity’s Last Exam)中,K2.6以54.0%的得分位居第一;在评估Agent深度检索能力的DeepSearchQA中,更是以92.5%的高分大幅领先GPT-5.4和Gemini 3.1 Pro,小幅超过Claude Opus 4.6。此外,在考察真实软件工程能力的SWE-Bench Pro中,K2.6以58.6%的成绩领先所有闭源模型。

同时,K2.6在通用智能(General Agents)、编程能力(Coding)和视觉理解能力(Visual Agents)上均展现出了综合竞争力。

不过,从数据细节来看,K2.6在部分维度仍有追赶空间。在SWE-bench多语言测试中,K2.6略逊于Claude Opus 4.6 和Gemini 3.1 Pro;而在Toolathlon复杂工具调度任务中,K2.6虽优于Claude Opus 4.6 和Gemini 3.1 Pro,但仍排在GPT-5.4之后。此外,在MathVision和V等视觉测试中,K2.6的表现与GPT-5.4相比也仍存在一定差距。

综合来看,K2.6在跨模态推理、工具调用及长程任务执行上表现稳健,多项能力上已达到或接近顶尖闭源模型水平。

近期,国内外大模型赛道近期动作频频。上周五,Anthropic发布了新一代旗舰模型Claude Opus 4.7;昨日,阿里发布了其下一代旗舰模型的早期预览版Qwen3.6-Max-Preview;而行业最期待的“开源猛兽”DeepSeek V4也有望在本周内降临。这一波国内外旗舰模型的集体“上桌”,意味着大模型格局的洗牌时刻即将到来。

新一代K2.6可连续编码13小时、处理超过4000行复杂代码,支持多语言前后端开发,并通过图像与视频生成工具深度融合,实现专业级Web应用复刻和视觉焦点设计。官方示例显示,K2.6可将复杂图像和视频素材转化为可运行前端代码,复刻经典网页或动画交互场景。

(待插入官方案例的视频)

此外,Kimi K2.6大幅增强了Agent自主执行能力:由K2.6驱动的Agent集群架构可支持300个子Agent并行完成4000个协作步骤,实现更大规模并行化,任务完成度和交付质量相比K2.5显著提升。在涵盖了多种复杂端到端任务的、Kimi内部代码评测基准Kimi Code Bench中,K2.6的成绩比K2.5提升了约20%。

在OpenClaw、Hermes Agent等主动式Agent框架中,K2.6可持续自主运行长达5天。内部Claw Bench测试显示,K2.6综合性能较K2.5提升10%,在单次运行中即可独立完成从文档到网页、PPT及表格的多产物端到端交付。

在海外,开发者对K2.6的反馈也十分积极。有开发者称,使用K2.6进行网页和前端交互设计“体验极佳,几乎是现阶段最佳”,能够轻松处理代码、图像、视频和动画素材。

还有用户称,用该模型制作前端效果“令人惊叹”,目前可能是同类工具中最强体验。

另一位开发者则关注到模型的BF16权重上传量为595GB,认为在开源生态中极具竞争力。

在API方面,K2.6维持分级计费模式,但相比K2.5价格有明显上涨。具体来看,K2.6每百万Token的输入价格为6.5元(缓存未命中),较K2.5的4元上涨了约62.5%;缓存命中情况下的输入价格为1.1元,较之前的0.7元也有所提升;而输出价格则从21元上调至27元。在窗口容量上,K2.6提供了262,144 Token的上下文窗口支持。

目前,Kimi Agent模式已内置上百个官方推荐技能,支持创建和调用Skill。Agent集群可调度不同技能特长的Agent互补协作,将搜索、深度研究、文档分析和长文创作等能力组合完成复杂任务。

同时,Kimi团队也在探索“Claw群组”这一方向,已在小范围内测阶段。

Kimi K2.6现已上线kimi.com、最新版Kimi应用、Kimi API和Kimi Code编程助手,所有用户可立即使用。智东西也进行了一番实测,我们在K2.6 Thinking模式下完成了两个多模态创意案例。

快速体验:kimi.com使用Kimi API:https://platform.kimi.com/docs/guide/kimi-k2-6-quickstart开源地址:Hugging Face: https://huggingface.co/moonshotai/Kimi-K2.6

一、手搓3D沙盒游戏、精绘体素鹈鹕,K2.6一手实测

为了直观验证K2.6的多模态与代码生成能力,我们在K2.6的Thinking模式下进行了两个具挑战性的创意实测。

第一个体验案例是要求K2.6制作一个3D横版格斗游戏。

暂无介绍....

延伸阅读:

HUDIMM DDR5内存性能初探,带宽性能腰斩近50%

IT之家 4 月 21 日消息,科技媒体 Wccftech 昨日(4 月 20 日)发布博文,测试 DDR5 HUDIM...

摸鱼小能手
2026年4月21日
瑞银评智谱–“中国版Anthropic”

一家清华系AI公司,正在走一条与全球头部AI实验室高度相似的路。4月20日,瑞银Wei Xiong等分析师发布了一份近4...

娱乐大事件
2026年4月21日
月之暗面发布K2.6,杨植麟真的需要一个郭达雅

月之暗面发布了Kimi K2.6,这也是杨植麟的第一个X.6版本。虽然版本号上只加了0.1,但这不是一次普通的版本更新。...

娱乐大事件
2026年4月21日
爱奇艺再回应AI艺人库

2026.04.21本文字数:576,阅读时长大约1分钟4月21日凌晨,@爱奇艺 再次发文重申在AIGC影视创作领域的坚...

娱乐早知道
2026年4月21日
爱奇艺急转弯要“去中心化”,做AI艺人库却被观众说“疯了”

(图源:视觉中国)蓝鲸新闻4月21日讯(记者 彭乐怡)"实拍剧不知道过多少年,会被命名为非物质文化遗产。"爱奇艺CEO龚...

娱乐大事件
2026年4月21日