国产模型新盛况!王座易主:Kimi K2 Thinking开源超闭源
很久没有这样的盛况了。
昨晚,月之暗面(Moonshot AI)刚刚开源了最新一代大模型 Kimi K2 Thinking,新模型一发布,就掀起了全网的大讨论。
作为一款开源模型,它在基准测试上毫无保留,多方面性能直接超越了 GPT-5、Claude Sonnet 4.5 等业界先进闭源模型。
现在,新发布的开源模型不比其他的开源模型,而是直接对标前沿闭源模型了,这不得不说是一种进步。
HuggingFace 联合创始人 Thomas Wolf 表示,我们正在见证又一次 DeepSeek 时刻:
昨天在正式推出前,Kimi K2 的推理版已经被正式并入了知名大模型推理服务框架 vLLM 的主线。广大开发者们已经获得了 Kimi 新模型的性能增益。
这一回,清华特奖得主、vLLM 主贡献者游凯超亲自审核、合并了代码。
K2 Thinking 模型发布还不到半天,官推的阅读量已达到 170 万。这会不会成为国产大模型爆发的拐点呢?
月之暗面表示,Kimi K2 Thinking 模型擅长多轮调用工具和持续思考,它在自主网络浏览能力(BrowseComp)、对抗性搜索推理(seal-0)等多项基准测试中表现均达到 SOTA 水平,并在 Agentic 搜索、Agentic 编程、写作和综合推理能力等方面取得全面提升。
智能推理的方面,在人类终极考试(Humanity’s Last Exam, HLE)这项超难基准上,Kimi K2 Thinking 取得了 44.9 分,超过了 Grok4、GPT-5、Claude 4.5 等先进模型。如果是 Kimi K2 Thinking Heavy,分数还可以进一步达到 51%。
昨晚八九点,Kimi 的 App 和网站就逐步上线了 Thinking 功能,据介绍其完整的智能体模式很快也将推出:
肉眼可见的特色是这个K2 Thinking 模型可以持续多轮「一边搜索一边思考」,这是目前 DeepSeek 也不具备的能力,另外由于 INT 4 量化,万亿级的参数也不用耗费大量资源进行推理。
尽管 K2 Thinking 的参数规模高达万亿,但其运行成本仍然很低。其 API 价格是百万 token 输入 0.15 美元(缓存命中)/0.6 美元(缓存未命中),每百万 token 输出 2.5 美元,比 GPT-5 的价格低一个数量级。
解决同样的问题,Kimi K2 Thinking 的准确率比 Claude 4.5 Sonnet 更高,成本还只有六分之一。
首发实测体验:
测试时间扩展的完全体
新模型上线后,大家都在用各种刁钻的问题进行测试,我们也试了试。
有趣的是,测试过程中出现了多次算力不足的情况,看来,Kimi K2 Thinking 一发布就吸引了海量用户同时涌入,热度高到「挤爆」了服务器。
自主网页浏览能力
我们先来测试一下这次更新提到的「自主网络浏览能力」。我们给出了一个高难度挑战:阅读 HuggingFace 前段时间发布的、长达 200 多页的 Smol 训练经验技术博客。要在如此海量且专业的内容中「大海捞针」,对模型是个不小的考验。
延伸阅读:
快手遭遇大规模网络攻击事件引发广泛关注,12月22日晚,该平台遭受黑灰产组织的猛烈侵袭。短短一小时内,黑客利用技术手段突破系统防线,导致整个安全体系陷入瘫痪。攻击者通过约1.7万个被操控的僵尸账号开设
12月22日22时许,快手遭遇黑灰产猛烈攻击。在短短60到90分钟内,黑客组织通过技术手段侵入快手系统,导致整个平台安全...
智能飞行新纪元:国内首型长续航垂直起降无人机亮相
来源:科技日报科技日报记者 张景阳记者近日从内蒙古草业技术创新中心获悉,该中心联合西北农林科技大学研发的国内首款XY-1...
柠檬形系外行星揭示碳分子异常,颠覆传统行星演化认知
来源:科技日报科技日报记者 刘霞美国芝加哥大学科学家利用詹姆斯·韦布空间望远镜,发现了一颗形状酷似柠檬的奇特系外行星——...
新型环保人工突触实现超低功耗与生物降解
来源:科技日报科技日报记者 刘霞韩国蔚山科学技术院科学家研发出一种完全可生物降解、性能稳定且能耗极低的人工突触,其由贝壳...
中国智能出行新突破:无人车正式登陆伦敦市场
来源:科技日报科技日报记者 都芃12月22日,中国无人驾驶出海再传捷报——百度旗下无人驾驶出行服务平台萝卜快跑将携手全球...

