DeepSeek 和 Kimi第一輪遭淘汰。
多知8月6日消息,谷歌發(fā)起的首屆大模型對(duì)抗賽引發(fā)了廣泛關(guān)注。此次比賽于8月5日至7日在 Kaggle Game Arena 舉行,匯聚了包括 DeepSeek、Kimi 等在內(nèi)的八款頂尖 AI 模型,競(jìng)爭(zhēng)將在策略游戲(如國(guó)際象棋和其他游戲中)中展開(kāi)對(duì)決。
第一輪比賽,Grok 4 表現(xiàn)最好,Gemini 2.5 Pro、o4-mini、Grok 4 和 o3 均以 4-0 的戰(zhàn)績(jī)分別擊敗 Claude 4 Opus、DeepSeek R1、Gemini 2.5 Flash 和 Kimi k2,晉級(jí)半決賽。
Kaggle Game Arena是谷歌推出的一個(gè)全新的、公開(kāi)的基準(zhǔn)測(cè)試平臺(tái)。此次參賽的模型包括 OpenAI 的 o4-mini、DeepSeek-R1、Kimi K2Instruct、Gemini2.5Pro(谷歌)、Claude Opus4(Anthropic)、Grok4(xAI)及 Gemini2.5Flash 等,每一款模型都代表了當(dāng)前 AI 領(lǐng)域的最前沿技術(shù)。組織方特別邀請(qǐng)了世界頂級(jí)國(guó)際象棋專家進(jìn)行解說(shuō),為比賽增添了專業(yè)性與觀賞性。
截至目前,大語(yǔ)言模型在象棋對(duì)弈中暴露出的問(wèn)題包括:全局棋盤視覺(jué)化能力不足、棋子間互動(dòng)關(guān)系理解有限……
至于Grok 4 表現(xiàn)最好,馬斯克的解釋是:“國(guó)際象棋很簡(jiǎn)單,Grok 沒(méi)花費(fèi)太多力氣。”
馬斯克認(rèn)為,毫無(wú)疑問(wèn),Grok 的推理能力就是強(qiáng)。