杨植麟交卷!Kimi K2.6抢先开源,指挥300个Agent上岗,实测手搓3D格斗游戏

智东西作者 江宇编辑 心缘

智东西4月21日报道,昨夜,Kimi正式发布并开源旗舰模型K2.6,带来其迄今最强的代码能力、长程任务执行和Agent集群能力。

根据官方公布的多项基准测试,Kimi K2.6在博士级难度的“人类最后的考试”(Humanity’s Last Exam)中,K2.6以54.0%的得分位居第一;在评估Agent深度检索能力的DeepSearchQA中,更是以92.5%的高分大幅领先GPT-5.4和Gemini 3.1 Pro,小幅超过Claude Opus 4.6。此外,在考察真实软件工程能力的SWE-Bench Pro中,K2.6以58.6%的成绩领先所有闭源模型。

同时,K2.6在通用智能(General Agents)、编程能力(Coding)和视觉理解能力(Visual Agents)上均展现出了综合竞争力。

不过,从数据细节来看,K2.6在部分维度仍有追赶空间。在SWE-bench多语言测试中,K2.6略逊于Claude Opus 4.6 和Gemini 3.1 Pro;而在Toolathlon复杂工具调度任务中,K2.6虽优于Claude Opus 4.6 和Gemini 3.1 Pro,但仍排在GPT-5.4之后。此外,在MathVision和V等视觉测试中,K2.6的表现与GPT-5.4相比也仍存在一定差距。

综合来看,K2.6在跨模态推理、工具调用及长程任务执行上表现稳健,多项能力上已达到或接近顶尖闭源模型水平。

近期,国内外大模型赛道近期动作频频。上周五,Anthropic发布了新一代旗舰模型Claude Opus 4.7;昨日,阿里发布了其下一代旗舰模型的早期预览版Qwen3.6-Max-Preview;而行业最期待的“开源猛兽”DeepSeek V4也有望在本周内降临。这一波国内外旗舰模型的集体“上桌”,意味着大模型格局的洗牌时刻即将到来。

新一代K2.6可连续编码13小时、处理超过4000行复杂代码,支持多语言前后端开发,并通过图像与视频生成工具深度融合,实现专业级Web应用复刻和视觉焦点设计。官方示例显示,K2.6可将复杂图像和视频素材转化为可运行前端代码,复刻经典网页或动画交互场景。

(待插入官方案例的视频)

此外,Kimi K2.6大幅增强了Agent自主执行能力:由K2.6驱动的Agent集群架构可支持300个子Agent并行完成4000个协作步骤,实现更大规模并行化,任务完成度和交付质量相比K2.5显著提升。在涵盖了多种复杂端到端任务的、Kimi内部代码评测基准Kimi Code Bench中,K2.6的成绩比K2.5提升了约20%。

在OpenClaw、Hermes Agent等主动式Agent框架中,K2.6可持续自主运行长达5天。内部Claw Bench测试显示,K2.6综合性能较K2.5提升10%,在单次运行中即可独立完成从文档到网页、PPT及表格的多产物端到端交付。

在海外,开发者对K2.6的反馈也十分积极。有开发者称,使用K2.6进行网页和前端交互设计“体验极佳,几乎是现阶段最佳”,能够轻松处理代码、图像、视频和动画素材。

还有用户称,用该模型制作前端效果“令人惊叹”,目前可能是同类工具中最强体验。

另一位开发者则关注到模型的BF16权重上传量为595GB,认为在开源生态中极具竞争力。

在API方面,K2.6维持分级计费模式,但相比K2.5价格有明显上涨。具体来看,K2.6每百万Token的输入价格为6.5元(缓存未命中),较K2.5的4元上涨了约62.5%;缓存命中情况下的输入价格为1.1元,较之前的0.7元也有所提升;而输出价格则从21元上调至27元。在窗口容量上,K2.6提供了262,144 Token的上下文窗口支持。

目前,Kimi Agent模式已内置上百个官方推荐技能,支持创建和调用Skill。Agent集群可调度不同技能特长的Agent互补协作,将搜索、深度研究、文档分析和长文创作等能力组合完成复杂任务。

同时,Kimi团队也在探索“Claw群组”这一方向,已在小范围内测阶段。

Kimi K2.6现已上线kimi.com、最新版Kimi应用、Kimi API和Kimi Code编程助手,所有用户可立即使用。智东西也进行了一番实测,我们在K2.6 Thinking模式下完成了两个多模态创意案例。

快速体验:kimi.com使用Kimi API:https://platform.kimi.com/docs/guide/kimi-k2-6-quickstart开源地址:Hugging Face: https://huggingface.co/moonshotai/Kimi-K2.6

一、手搓3D沙盒游戏、精绘体素鹈鹕,K2.6一手实测

为了直观验证K2.6的多模态与代码生成能力,我们在K2.6的Thinking模式下进行了两个具挑战性的创意实测。

第一个体验案例是要求K2.6制作一个3D横版格斗游戏。

暂无介绍....

延伸阅读:

锦波生物、新氧翻脸后牵手,“山西女首富”难逃真香定律?

200亿锦波生物为何难逃“真香定律”?作者 | 于婞编辑丨高岩来源 | 野马财经谁都逃不过王境泽的“真香定律”,锦波生物...

娱乐早知道
2026年4月23日
微软(MSFT.US)豪掷180亿美元加码澳大利亚AI基建,创公司史上最大单笔投资

智通财经APP获悉,微软公司(MSFT.US)宣布了其在澳大利亚的最大一笔投资,承诺到2029年底前投入250亿澳元(约...

摸鱼小能手
2026年4月23日
千问“AI办事”走向开放,首家接入东方航空

4月23日,千问宣布,今天起,千问对外开放“AI办事”能力,欢迎各类社会服务接入。官方介绍,千问首家接入中国东方航空,上...

娱乐早知道
2026年4月23日
微软遭21亿英镑集体诉讼,6万家企业指控其云服务定价不公

IT之家 4 月 23 日消息,科技媒体 NeoWin 昨日(4 月 22 日)发布博文,报道称微软在英国面临一项价值 ...

八卦小灵通
2026年4月23日
Information Shapes Koopman Representation:信息如何决定模拟

英国University College London (UCL) 博士程小远、新加坡Nanyang Technolog...

八卦小灵通
2026年4月23日