深度丨DeepSeek和Kimi双双出局，首届AI国际象棋大赛中国队惜败？真正的逆袭才刚刚开始-热门话题讨论-90世界杯|世界杯荷兰|杭百度888世界杯综合资讯站|hzbaidu888.com

目前确认参赛的有八位选手，中国战队包含DeepSeek和Kimi。

o3 和 o4-mini（OpenAI）

DeepSeek-R1（DeepSeek，中国代表）

Kimi K2 Instruct（月之暗面，中国代表）

Gemini 2.5 Pro & Gemini 2.5 Flash（Google）

Claude Opus 4（Anthropic）

Grok 4（xAI）

o3 和 o4-mini（OpenAI）

DeepSeek-R1（DeepSeek，中国代表）

Kimi K2 Instruct（月之暗面，中国代表）

Gemini 2.5 Pro & Gemini 2.5 Flash（Google）

Claude Opus 4（Anthropic）

Grok 4（xAI）

这里其实也藏着一个小小的“Bug”：初始对局席位是根据 Kaggle 前期的内部测试结果进行分配的，排名较高的模型会对阵排名相对靠后的模型，以确保整体对阵结构的平衡，同时避免前两名种子选手在决赛前提前相遇。正因如此，在首轮就撞上强敌，也并非偶然。

对局回顾｜开局即高潮，有的模型秒崩，有的爆冷惊艳Kimi K2 Instruct vs o3：虽败犹荣

Kimi K2 Instruct 与 o3 的对局结束得颇为迅速，四局比赛均在八步棋内告终。由于 Kimi K2 连续四次未能给出合法着法，被系统判负，o3 也因此轻松取得全胜。

这一结果在意料之中，毕竟此次上场的 Kimi K2 Instruct 并非专为策略博弈设计，其核心能力侧重于语言理解、代码生成、多语言任务和通用 Agent 执行，面对推理能力和博弈调度更强的 o3，自然难以抗衡。甚至在比赛之前，Kimi官方也在调侃，K2可能会惨败，但一定会到场。

从 Kimi k2 的走棋注释来看，它似乎能够在开局阶段准确跟随既定的理论路线，几步之内表现得相当稳健。但一旦脱离熟悉的定式，它就像突然“迷路”了一般，局势迅速滑向崩盘。

在其他对局中，Kimi k2 还会弄错棋盘位置。这种混乱的决策往往不是源于模型本身“愚钝”，而是源于其架构并非为连续状态更新和多轮结构推理而优化。

但正如许多网友调侃的那样：“首轮就对阵 o3，这不是输，是去学经验。” 对于一款主攻代码、Agent 和多模态理解的开源模型来说，下棋失利并不代表智能短板，反而让我们更清楚看到当前通用模型在结构化策略推理上的局限。

尽管首战落败，Kimi K2 依然是当前最受关注的开源模型之一。

2025年7月发布并同步开源后，Kimi K2 凭借强大的性能和极高的实用价值迅速走红。在 LMArena 平台上，它在数千名开发者参与的对抗测试中一举登顶开源榜首，全球总排名第五。在 Hugging Face 平台上，Kimi K2 上线不到一个月，下载量已经突破 40 万次，有网友统计，按照日均口径计划，这已经越过了DeepSeek V3和R1，稳居最受欢迎模型之一。而在全球最大模型聚合平台 OpenRouter 上，Kimi K2 则刚上线两天便超越 Grok 4，登上调用趋势榜首位，一周内付费调用量超过 575 亿 tokens，成为首页推荐中唯一的开源模型。

DeepSeek-R1 vs OpenAI o4 mini：开局稳健，但中盘失衡

DeepSeek-R1 与 OpenAI o4-mini 的对局呈现出一种颇具戏剧性的节奏感：如果只看每局前几步，几乎可以误以为是两位经验老道的高手在博弈。开局阶段，DeepSeek-R1 展现出极高的稳定性与理论执行力，多次精准复现经典布局，步伐流畅、落子自然，体现了其在规则理解、局势感知方面扎实的基础功。

然而进入中盘后，比赛走势往往急转直下，模型开始出现连续误判与策略断裂，整体判断失衡，最终导致对局失控。o4-mini 则在多局中抓住关键机会完成将军，顺利拿下胜利。

从某种意义上看，这场对局更像是一场关于“AI 认知极限”的实景演练。它揭示了当前语言类或通用模型在处理强结构化、强因果推理任务时的短板——尤其在需要连续策略规划与状态动态更新的博弈场景中，模型的能力尚难支撑整局高质量表现。

初赛总结

初赛的结果是，中国代表团的两位参赛模型——Kimi K2 Instruct 和 DeepSeek-R1，在与顶尖对手的较量中虽双双惜败，但仍展现出通用模型在强结构任务中的潜力和探索价值。

当天的“最佳对局”正是由 Grok 奉献，国际特级大师 Rafael Leitao 在点评中毫不吝惜赞誉：“Grok 的表现让我一点也不意外，它一直是我最看好的模型，甚至没有可比性。”

连 Elon Musk 都在 X 上亲自发文点赞，表示对 Grok 的发挥“毫不惊讶”，并顺势再提一句他的老观点：“国际象棋对 AI 来说太简单。”

不过，纵观整场比赛，目前的大语言模型在棋类博弈中的短板也依然明显：其一，整体棋盘感知能力仍不稳定，无法持续保持局势全貌；其二，对棋子之间的相互作用理解薄弱，缺乏连贯的战略规划；其三，在关键时刻容易因基本规则理解错误而频频被判负。

比赛告一段落，但中国模型的崛起才刚刚开始

初赛已告一段落，各大模型在棋盘上展开了第一轮“智能对峙”。我们看到，有模型刚上场就“撞车”强敌，有的在开局阶段棋艺可圈可点，却在中盘暴露出架构瓶颈；也有的像 Grok 4 一样，在短板普遍存在的博弈场景中打出一场堪称“惊喜”的技术展示。

但无论胜负，这场比赛真正的看点，并不只是模型走了几步好棋，而是它们在陌生、开放、不可预测的环境下，如何理解规则、保持状态、犯错又修正——这比任何标准化基准都更接近“通用智能”的真实样貌。

对于中国代表队来说，这场比赛的意义，也早已超越胜负本身。

DeepSeek-R1和Kimi K2 Instruct虽然在首轮惜败，但它们以完全开源、全流程自主研发的姿态，走进了全球最激烈的 AI 博弈舞台，仿佛想起了中国代表团最初参加奥运会的景象。面对强敌，它们选择不绕路、不设限，正面迎战，用真实的对局来测试边界、验证能力、承认短板，也显露出中国模型在通用智能方向上不断积累的底气。

比赛仍在继续。棋盘之外，中国开源模型的真正强局，或许才刚刚开始。

来源：

[1] https://www.kaggle.com/blog/introducing-game-arena[2] https://www.kaggle.com/benchmarks/kaggle/chess-text/versions/1[3] https://www.chess.com/news/view/kaggle-game-arena-chess-2025-day-1返回搜狐，查看更多

90世界杯|世界杯荷兰|杭百度888世界杯综合资讯站|hzbaidu888.com

90世界杯|世界杯荷兰|杭百度888世界杯综合资讯站|hzbaidu888.com

友情链接