目前确认参赛的有八位选手,中国战队包含DeepSeek和Kimi。
o3 和 o4-mini(OpenAI)
DeepSeek-R1(DeepSeek,中国代表)
Kimi K2 Instruct(月之暗面,中国代表)
Gemini 2.5 Pro & Gemini 2.5 Flash(Google)
Claude Opus 4(Anthropic)
Grok 4(xAI)
o3 和 o4-mini(OpenAI)
DeepSeek-R1(DeepSeek,中国代表)
Kimi K2 Instruct(月之暗面,中国代表)
Gemini 2.5 Pro & Gemini 2.5 Flash(Google)
Claude Opus 4(Anthropic)
Grok 4(xAI)
这里其实也藏着一个小小的“Bug”:初始对局席位是根据 Kaggle 前期的内部测试结果进行分配的,排名较高的模型会对阵排名相对靠后的模型,以确保整体对阵结构的平衡,同时避免前两名种子选手在决赛前提前相遇。正因如此,在首轮就撞上强敌,也并非偶然。
对局回顾|开局即高潮,有的模型秒崩,有的爆冷惊艳Kimi K2 Instruct vs o3:虽败犹荣
Kimi K2 Instruct 与 o3 的对局结束得颇为迅速,四局比赛均在八步棋内告终。由于 Kimi K2 连续四次未能给出合法着法,被系统判负,o3 也因此轻松取得全胜。
这一结果在意料之中,毕竟此次上场的 Kimi K2 Instruct 并非专为策略博弈设计,其核心能力侧重于语言理解、代码生成、多语言任务和通用 Agent 执行,面对推理能力和博弈调度更强的 o3,自然难以抗衡。甚至在比赛之前,Kimi官方也在调侃,K2可能会惨败,但一定会到场。
从 Kimi k2 的走棋注释来看,它似乎能够在开局阶段准确跟随既定的理论路线,几步之内表现得相当稳健。但一旦脱离熟悉的定式,它就像突然“迷路”了一般,局势迅速滑向崩盘。
在其他对局中,Kimi k2 还会弄错棋盘位置。这种混乱的决策往往不是源于模型本身“愚钝”,而是源于其架构并非为连续状态更新和多轮结构推理而优化。
但正如许多网友调侃的那样:“首轮就对阵 o3,这不是输,是去学经验。” 对于一款主攻 代码、Agent 和多模态理解的开源模型来说,下棋失利并不代表智能短板,反而让我们更清楚看到当前通用模型在结构化策略推理上的局限。
尽管首战落败,Kimi K2 依然是当前最受关注的开源模型之一。
2025年7月发布并同步开源后,Kimi K2 凭借强大的性能和极高的实用价值迅速走红。在 LMArena 平台上,它在数千名开发者参与的对抗测试中一举登顶开源榜首,全球总排名第五。在 Hugging Face 平台上,Kimi K2 上线不到一个月,下载量已经突破 40 万次,有网友统计,按照日均口径计划,这已经越过了DeepSeek V3和R1,稳居最受欢迎模型之一。而在全球最大模型聚合平台 OpenRouter 上,Kimi K2 则刚上线两天便超越 Grok 4,登上调用趋势榜首位,一周内付费调用量超过 575 亿 tokens,成为首页推荐中唯一的开源模型。
DeepSeek-R1 vs OpenAI o4 mini:开局稳健,但中盘失衡
DeepSeek-R1 与 OpenAI o4-mini 的对局呈现出一种颇具戏剧性的节奏感:如果只看每局前几步,几乎可以误以为是两位经验老道的高手在博弈。开局阶段,DeepSeek-R1 展现出极高的稳定性与理论执行力,多次精准复现经典布局,步伐流畅、落子自然,体现了其在规则理解、局势感知方面扎实的基础功。
然而进入中盘后,比赛走势往往急转直下,模型开始出现连续误判与策略断裂,整体判断失衡,最终导致对局失控。o4-mini 则在多局中抓住关键机会完成将军,顺利拿下胜利。
从某种意义上看,这场对局更像是一场关于“AI 认知极限”的实景演练。它揭示了当前语言类或通用模型在处理强结构化、强因果推理任务时的短板——尤其在需要连续策略规划与状态动态更新的博弈场景中,模型的能力尚难支撑整局高质量表现。
初赛总结
初赛的结果是,中国代表团的两位参赛模型——Kimi K2 Instruct 和 DeepSeek-R1,在与顶尖对手的较量中虽双双惜败,但仍展现出通用模型在强结构任务中的潜力和探索价值。
当天的“最佳对局”正是由 Grok 奉献,国际特级大师 Rafael Leitao 在点评中毫不吝惜赞誉:“Grok 的表现让我一点也不意外,它一直是我最看好的模型,甚至没有可比性。”
连 Elon Musk 都在 X 上亲自发文点赞,表示对 Grok 的发挥“毫不惊讶”,并顺势再提一句他的老观点:“国际象棋对 AI 来说太简单。”
不过,纵观整场比赛,目前的大语言模型在棋类博弈中的短板也依然明显:其一,整体棋盘感知能力仍不稳定,无法持续保持局势全貌;其二,对棋子之间的相互作用理解薄弱,缺乏连贯的战略规划;其三,在关键时刻容易因基本规则理解错误而频频被判负。
比赛告一段落,但中国模型的崛起才刚刚开始
初赛已告一段落,各大模型在棋盘上展开了第一轮“智能对峙”。我们看到,有模型刚上场就“撞车”强敌,有的在开局阶段棋艺可圈可点,却在中盘暴露出架构瓶颈;也有的像 Grok 4 一样,在短板普遍存在的博弈场景中打出一场堪称“惊喜”的技术展示。
但无论胜负,这场比赛真正的看点,并不只是模型走了几步好棋,而是它们在陌生、开放、不可预测的环境下,如何理解规则、保持状态、犯错又修正——这比任何标准化基准都更接近“通用智能”的真实样貌。
对于中国代表队来说,这场比赛的意义,也早已超越胜负本身。
DeepSeek-R1和Kimi K2 Instruct虽然在首轮惜败,但它们以完全开源、全流程自主研发的姿态,走进了全球最激烈的 AI 博弈舞台,仿佛想起了中国代表团最初参加奥运会的景象。面对强敌,它们选择不绕路、不设限,正面迎战,用真实的对局来测试边界、验证能力、承认短板,也显露出中国模型在通用智能方向上不断积累的底气。
比赛仍在继续。棋盘之外,中国开源模型的真正强局,或许才刚刚开始。
来源:
[1] https://www.kaggle.com/blog/introducing-game-arena[2] https://www.kaggle.com/benchmarks/kaggle/chess-text/versions/1[3] https://www.chess.com/news/view/kaggle-game-arena-chess-2025-day-1返回搜狐,查看更多