一張圖看懂 Claude Opus 4.5、Gemini 3 Pro 與 GPT-5.1 的真實差距
Anthropic 官方釋出的這張最新評測圖,揭示了 2025 年 AI 三巨頭截然不同的進化樹。 如果你還在問「哪個 AI 最強?」,這張圖告訴我們:答案取決於你要它「做什麼」。 我們不再處於一個通用模型通吃的時代,而是進入了「專長分化」的階段。 1. Claude Opus 4.5:最強的「實作代理人 (Agent)」 寫程式還是得用 Claude。 - 關鍵數據:Agentic Coding (80.9%) & Computer Use (66.3%) 。在 SWE-bench(軟體工程測試)中,它突破了 80% 的大關,大幅領先 GPT-5.1 (76.3%)。更可怕的是 Computer Use 能力,它能像人類一樣直接操作電腦介面。 - 含義: 這是邁向 AGI(通用人工智慧)的重要一步。Claude 不只能寫出程式碼,還能自己去終端機跑測試、Debug、甚至操作你的滑鼠去填表單。它是目前最接近「數位員工」的模型。 2. Gemini 3 Pro:無懈可擊的「學術大腦」 Google 展現了知識深度。 - 關鍵數據:Graduate-level reasoning (91.9%) 在 GPQA(博士級科學問答)測試中,Gemini 3 Pro 拿下了全場最高的 91.9%,狠狠甩開了 Opus 4.5 (87%) 和 GPT-5.1 (88.1%)。 - 含義: 如果你的工作涉及硬科學(生物、物理、化學)或極度複雜的學術考據,Gemini 依然是首選。它的「幻覺」可能最少,邏輯推演最嚴謹,且在多語言(Multilingual Q&A)上保持了傳統優勢。 3. GPT-5.1:視覺王者,但在「新邏輯」上遭遇滑鐵盧? GPT-5.1 的數據在這張圖上呈現了有趣的兩極化。 - 強項:Visual Reasoning (85.4%) 在 MMMU(多模態視覺推理)上,GPT-5.1 奪得冠軍,高出 Opus 4.5 近 5%。這代表它看圖表、理解複雜影像的能力最強。 - 弱點:Novel problem solving (17.6%) , 這是令人震驚的數據差異。在 ARC-AGI-2(抽象推理與新問題解決)測試中,Opus 4.5 拿下了 37.6%,而 GPT-5.1 僅有 17.6%。 - 含義: ARC 測試的是「面對從未見過的邏輯規律」的反應能力,無法靠背誦數據庫得分。這暗示了 GPT-5.1 可能非常擅長處理已知的知識與模式,但在面對完全陌生的情境時,其「舉一反三」的靈活性可能不如 Claude Opus 4.5。 這張圖表打破了「一家獨大」的局面,根據你的需求,選擇會完全不同: ✅ 選 Claude Opus 4.5: 如果你是工程師,或需要 AI 自主完成一連串複雜操作任務(Agentic Workflow)。 ✅ 選 Gemini 3 Pro: 如果你是研究人員、博士生,需要最精準的知識庫與學術推理。 ✅ 選 GPT-5.1: 如果你需要處理大量視覺資訊、圖表分析,或是習慣於處理標準化的通用任務。不過,由於 Gemini 3 Pro 並沒有 Visual Reasoning 的分數,所以還未可知。