as22 发表于 2025-11-7 14:43:57

Kimi迄今能力最强开源思考模型:Kimi K2 Thinking模型发布并开源

本帖最后由 as22 于 2025-11-7 14:45 编辑

11月7日消息,日前,月之按暗面发布Kimi K2 Thinking —— Kimi 迄今能力最强的开源思考模型。

据介绍,Kimi K2 Thinking 是基于「模型即 Agent」理念训练的新一代 Thinking Agent,它原生掌握「边思考,边使用工具」的能力。在人类最后的考试(Humanity's Last Exam)、自主网络浏览能力(BrowseComp)、复杂信息收集推理(SEAL-0)等多项基准测试中表现达到 SOTA 水平,并在 Agentic 搜索、Agentic 编程、写作和综合推理能力等方面取得全面提升。



Kimi K2 Thinking 模型无需人类干预,即可自主实现高达 300 轮的工具调用和持续稳定的多轮思考能力,从而帮助用户解决更复杂的问题。这是我们在 Test-Time Scaling(测试时扩展)领域的最新进展,通过同时扩展思考 Token 和工具调用的轮次,实现更强的 Agent 和推理性能。

据悉,人类最后的考试是一项涵盖 100 多个专业领域的终极封闭式学术测试。在允许使用工具——搜索、Python、网络浏览工具的同等情况下,Kimi K2 Thinking 在这项基准评测中取得了 44.9% 的 SOTA 成绩。



在复杂搜索和浏览场景中,Kimi K2 Thinking 模型也表现出色。Kimi K2 Thinking 在BrowseComp测试中展现出极强的钻研能力,以 60.2% 的成绩成为新的 SOTA 模型。而这项测试的初衷是衡量 AI Agent 在信息过载环境中展现出的坚持性与创造力,即能否像人类研究员一样「刨根问底」。



Kimi K2 Thinking 模型的编码能力也得到了增强,在多语言软件工程基准 SWE-Multilingual、SWE-bench 验证集和 Terminal 终端使用等基准测试中的表现有了进一步提升。

另外,该模型的通用基础能力也得到了升级。

创意写作:Kimi K2 Thinking 显著提升了写作能力,它能将粗略的灵感转化为清晰、动人且意图明确的叙述,使其兼具韵律感和深度。它能轻松驾驭微妙的文风差异和模糊的结构,并在长篇大论中保持风格的连贯性。在创意写作方面,它笔下的意象更生动,情感共鸣更强烈,将精准的表达与丰富的表现力融为一体。

学术与研究:在学术研究和专业领域,Kimi K2 Thinking 在分析深度、信息准确性和逻辑结构方面均有显著提升。它能有条不紊地剖析复杂的指令,并以清晰严谨的方式拓展思路。这使其尤其擅长处理学术论文、技术摘要,以及那些对信息完整性和推理质量要求极高的长篇报告。

个人与情感:在回应个人或情感类问题时,Kimi K2 Thinking 的回答更富同理心,立场也更中正平和。它的思考深入周到且具体明确,能提供细致入微的观点和切实可行的后续建议。它能清晰并关切地帮助用户梳理复杂的决策,其语气既脚踏实地又切实中肯,更有人情味。

因在后训练(post-training)阶段采用了量化感知训练(QAT),并对 MoE 组件应用了 INT4 纯权重(weight-only)量化。使得 Kimi K2 Thinking 模型能够在复杂推理和 Agentic 任务中支持原生的 INT4 推理,并将生成速度提升了约 2 倍。INT4 对推理硬件的兼容性更强,对国产加速计算芯片也更加友好。



目前,Kimi K2 Thinking 模型已上线 kimi.com 和最新版 Kimi 手机应用的常规对话模式。
页: [1]
查看完整版本: Kimi迄今能力最强开源思考模型:Kimi K2 Thinking模型发布并开源