Kimi迄今能力最强开源思考模型：Kimi K2 Thinking模型发布并开源

as22 发表于 2025-11-7 14:43:57

本帖最后由 as22 于 2025-11-7 14:45 编辑

11月7日消息，日前，月之按暗面发布Kimi K2 Thinking —— Kimi 迄今能力最强的开源思考模型。

据介绍，Kimi K2 Thinking 是基于「模型即 Agent」理念训练的新一代 Thinking Agent，它原生掌握「边思考，边使用工具」的能力。在人类最后的考试（Humanity's Last Exam）、自主网络浏览能力（BrowseComp）、复杂信息收集推理（SEAL-0）等多项基准测试中表现达到 SOTA 水平，并在 Agentic 搜索、Agentic 编程、写作和综合推理能力等方面取得全面提升。

Kimi K2 Thinking 模型无需人类干预，即可自主实现高达 300 轮的工具调用和持续稳定的多轮思考能力，从而帮助用户解决更复杂的问题。这是我们在 Test-Time Scaling（测试时扩展）领域的最新进展，通过同时扩展思考 Token 和工具调用的轮次，实现更强的 Agent 和推理性能。

据悉，人类最后的考试是一项涵盖 100 多个专业领域的终极封闭式学术测试。在允许使用工具——搜索、Python、网络浏览工具的同等情况下，Kimi K2 Thinking 在这项基准评测中取得了 44.9% 的 SOTA 成绩。

在复杂搜索和浏览场景中，Kimi K2 Thinking 模型也表现出色。Kimi K2 Thinking 在BrowseComp测试中展现出极强的钻研能力，以 60.2% 的成绩成为新的 SOTA 模型。而这项测试的初衷是衡量 AI Agent 在信息过载环境中展现出的坚持性与创造力，即能否像人类研究员一样「刨根问底」。

Kimi K2 Thinking 模型的编码能力也得到了增强，在多语言软件工程基准 SWE-Multilingual、SWE-bench 验证集和 Terminal 终端使用等基准测试中的表现有了进一步提升。

另外，该模型的通用基础能力也得到了升级。

创意写作：Kimi K2 Thinking 显著提升了写作能力，它能将粗略的灵感转化为清晰、动人且意图明确的叙述，使其兼具韵律感和深度。它能轻松驾驭微妙的文风差异和模糊的结构，并在长篇大论中保持风格的连贯性。在创意写作方面，它笔下的意象更生动，情感共鸣更强烈，将精准的表达与丰富的表现力融为一体。

学术与研究：在学术研究和专业领域，Kimi K2 Thinking 在分析深度、信息准确性和逻辑结构方面均有显著提升。它能有条不紊地剖析复杂的指令，并以清晰严谨的方式拓展思路。这使其尤其擅长处理学术论文、技术摘要，以及那些对信息完整性和推理质量要求极高的长篇报告。

个人与情感：在回应个人或情感类问题时，Kimi K2 Thinking 的回答更富同理心，立场也更中正平和。它的思考深入周到且具体明确，能提供细致入微的观点和切实可行的后续建议。它能清晰并关切地帮助用户梳理复杂的决策，其语气既脚踏实地又切实中肯，更有人情味。

因在后训练（post-training）阶段采用了量化感知训练（QAT），并对 MoE 组件应用了 INT4 纯权重（weight-only）量化。使得 Kimi K2 Thinking 模型能够在复杂推理和 Agentic 任务中支持原生的 INT4 推理，并将生成速度提升了约 2 倍。INT4 对推理硬件的兼容性更强，对国产加速计算芯片也更加友好。

目前，Kimi K2 Thinking 模型已上线 kimi.com 和最新版 Kimi 手机应用的常规对话模式。

页: [1]

随客社区's Archiver

Kimi迄今能力最强开源思考模型：Kimi K2 Thinking模型发布并开源