昨天 Moonshot AI 丟出一個讓很多人沉默的數字——開源模型,全球排名第4,只差美國三大閉源模型3分。
過去大家普遍的認知是「開源模型就是差一截」。K2.6 這次直接把這句話打臉。它不是靠規模堆出來的,是靠架構設計——1 兆參數的 MoE 模型,但每次推理只動用 320 億,推理效率跟成本都控制得很漂亮。
🧠 幻覺率從 65% 降到 39%,已逼近 Claude Opus 4.7 的 36%
⚙️ SWE-Bench Pro 拿下 58.6 分,超越 GPT-5.4 的 57.7
🤖 支援最多 300 個子 Agent 平行執行,最多 4,000 步協調
📋 256K token 超長上下文,原生支援圖片與影片輸入
🔓 Modified MIT License,可下載自建,不鎖 API
那 13 小時自主編碼是怎麼回事?K2.6 被丟去重構一個 8 年老的金融撮合引擎——沒有人在旁邊守,它自己分析 CPU 效能瓶頸、重新設計執行緒架構、改了 4,000 行程式碼,最後把中等吞吐量從 0.43 提升到 1.24 MT/s,成長 185%。
對我來說這才是重點——不是跑分有多高,是它真的可以獨立完成一整個工程任務,中間不需要人介入。這跟市面上大多數「Agent 工具」的差距非常明顯。
如果你在用 Claude Code 或 Cursor,K2.6 現在已經是值得認真比較的選項,尤其是中文任務或成本敏感的場景。
你有試過用開源模型跑 Agent 任務嗎?跟閉源比起來差在哪?留言聊聊 👇