国产模型新盛况！王座易主：Kimi K2 Thinking开源超闭源

娱乐大事件
科技前沿
2025年11月7日

很久没有这样的盛况了。

昨晚，月之暗面（Moonshot AI）刚刚开源了最新一代大模型 Kimi K2 Thinking，新模型一发布，就掀起了全网的大讨论。

作为一款开源模型，它在基准测试上毫无保留，多方面性能直接超越了 GPT-5、Claude Sonnet 4.5 等业界先进闭源模型。

现在，新发布的开源模型不比其他的开源模型，而是直接对标前沿闭源模型了，这不得不说是一种进步。

HuggingFace 联合创始人 Thomas Wolf 表示，我们正在见证又一次 DeepSeek 时刻：

昨天在正式推出前，Kimi K2 的推理版已经被正式并入了知名大模型推理服务框架 vLLM 的主线。广大开发者们已经获得了 Kimi 新模型的性能增益。

这一回，清华特奖得主、vLLM 主贡献者游凯超亲自审核、合并了代码。

K2 Thinking 模型发布还不到半天，官推的阅读量已达到 170 万。这会不会成为国产大模型爆发的拐点呢？

月之暗面表示，Kimi K2 Thinking 模型擅长多轮调用工具和持续思考，它在自主网络浏览能力（BrowseComp）、对抗性搜索推理（seal-0）等多项基准测试中表现均达到 SOTA 水平，并在 Agentic 搜索、Agentic 编程、写作和综合推理能力等方面取得全面提升。

智能推理的方面，在人类终极考试（Humanity’s Last Exam, HLE）这项超难基准上，Kimi K2 Thinking 取得了 44.9 分，超过了 Grok4、GPT-5、Claude 4.5 等先进模型。如果是 Kimi K2 Thinking Heavy，分数还可以进一步达到 51%。

昨晚八九点，Kimi 的 App 和网站就逐步上线了 Thinking 功能，据介绍其完整的智能体模式很快也将推出：

肉眼可见的特色是这个K2 Thinking 模型可以持续多轮「一边搜索一边思考」，这是目前 DeepSeek 也不具备的能力，另外由于 INT 4 量化，万亿级的参数也不用耗费大量资源进行推理。

尽管 K2 Thinking 的参数规模高达万亿，但其运行成本仍然很低。其 API 价格是百万 token 输入 0.15 美元（缓存命中）/0.6 美元（缓存未命中），每百万 token 输出 2.5 美元，比 GPT-5 的价格低一个数量级。

解决同样的问题，Kimi K2 Thinking 的准确率比 Claude 4.5 Sonnet 更高，成本还只有六分之一。

首发实测体验：

测试时间扩展的完全体

新模型上线后，大家都在用各种刁钻的问题进行测试，我们也试了试。

有趣的是，测试过程中出现了多次算力不足的情况，看来，Kimi K2 Thinking 一发布就吸引了海量用户同时涌入，热度高到「挤爆」了服务器。

自主网页浏览能力

我们先来测试一下这次更新提到的「自主网络浏览能力」。我们给出了一个高难度挑战：阅读 HuggingFace 前段时间发布的、长达 200 多页的 Smol 训练经验技术博客。要在如此海量且专业的内容中「大海捞针」，对模型是个不小的考验。

#kimi #thinking #智能体 #深度思考按钮 #王座易主 #王熙凤

娱乐大事件

暂无介绍....

医械网	工业品资讯
广告位	广告位

国产模型新盛况！王座易主：Kimi K2 Thinking开源超闭源

娱乐大事件

闪电快讯｜全系标配易三方，腾势N8L 29.98万元起正式上市

在失败中进化？UIUC联合斯坦福、AMD实现智能体「从错误中成长」

延伸阅读:

总不能山姆的什么锅都让阿里背吧

谷歌为Chrome浏览器发布安全更新，修复8项高危安全漏洞问题

三星Galaxy Z Fold8折叠手机渲染图曝光：外6.5/内8英寸屏幕

你是否在雪山救过一只狐狸？

1元买软件、5元买服务配音演员声音是如何被批量“偷走”的？