Zusammenfassung:
Das Team von Moonshot AI hat mit Kimi K2 Thinking ein neues Open-Source-Modell vorgestellt, das in mehreren Benchmark-Tests Spitzenwerte erreicht. Die Architektur ist darauf ausgelegt, als „denkender Agent“ komplexe Aufgaben mit vielen aufeinanderfolgenden Tool-Aufrufen zu bewältigen.
Die Kernpunkte im Überblick:
- State-of-the-Art-Leistung: 44,9 % im HLE- und 60,2 % im BrowseComp-Benchmark – deutlich vor Grok-4 und Grok-4 Fast.
- Hohe Autonomie: Das Modell kann bis zu 200–300 Tool-Aufrufe ohne menschliche Eingriffe durchführen.
- Technische Leistungsfähigkeit: Kontextfenster mit 256 000 Tokens und starke Ergebnisse im IMO-AnswerBench (78,6 %).
- Verfügbarkeit & Kosten: Bereits im Chatmodus auf kimi.com nutzbar; API unter platform.moonshot.ai. Preislich liegt die Nutzung bei 0,60 $/2,50 $ pro Million Tokens (Turbo-Version: 1,15 $/8 $).
- Fokus: Besonders stark in STEM-Bereichen (Wissenschaft, Technik, Ingenieurwesen, Mathematik).
Fazit: 💡
Mit Kimi K2 Thinking präsentiert Moonshot AI ein leistungsstarkes, wissenschaftlich orientiertes Open-Source-Modell, das bei komplexem Denken, Tool-Integration und Benchmark-Performance neue Maßstäbe im Open-Source-Segment setzt.