Ollama läuft jetzt mit MLX. Ich hab es sofort getestet.

Das Ergebnis war zunächst enttäuschend. Dann wurde es interessant.

Gestern hat Ollama 0.19 eine Preview veröffentlicht: Apple MLX als neues Backend statt llama.cpp. Ich hab sofort einen direkten Vergleich aufgebaut: Ollama 0.19 vs. mein bestehendes vllm-mlx Setup. Gleiches Modell (Qwen3.5-35B), gleiche Prompts, echter Benchmark.

Erster Lauf. Ollama verliert haushoch:

→ vllm-mlx: TTFT 60 ms

→ Ollama 0.19: TTFT 26.000 ms

Der Grund: Thinking Mode. Ollama aktiviert ihn standardmäßig, vllm-mlx nicht. Kein fairer Vergleich.

Also Thinking deaktiviert — was sich als eigene Odyssee herausstellte:

✘ /no_think im Prompt? Ignoriert. Das Modell analysiert den Text buchstäblich: "Input: /no_think zähle von 1 bis 10"

✔ "think": false im API-Body? Funktioniert — aber nur bei Ollama

Nach dem Fix: der echte Vergleich.

SHORT (Wissensabfrage)

→ vllm-mlx: TTFT 60 ms | 85 Tokens/s | 1,5 s

→ Ollama 0.19: TTFT 86 ms | 68 Tokens/s | 1,8 s

CODE (C# HTTP-Client)

→ vllm-mlx: TTFT 56 ms | 79,6 Tokens/s | 29,5 s

→ Ollama 0.19: TTFT 76 ms | 65,5 Tokens/s | 28,1 s

LONG (KMU-Analyse, 5 Kriterien)

→ vllm-mlx: TTFT 64 ms | 77,5 Tokens/s | 21,6 s

→ Ollama 0.19: TTFT 85 ms | 60,9 Tokens/s | 28,9 s

Das Fazit in Zahlen:

vllm-mlx ist ~25% schneller in Tokens/s und hat ~30% niedrigeren RAM-Verbrauch (44-46 GB vs. 50-51 GB).

Was erklärt den RAM-Unterschied?

Ollama 0.19 lädt das NVFP4-Modell anders in den Unified Memory als mein bestehendes MLX-4bit in vllm. Ob das an der Quantisierung liegt oder am neuen Backend — unklar. Das wäre der nächste Test.

Was Ollama 0.19 trotzdem richtig macht:

✅ MLX als Backend ist die richtige Entscheidung — endlich kein llama.cpp-Workaround mehr

✅ "think": false funktioniert sauber über die API

✅ Caching über Conversations hinweg — relevant für Agenten-Workflows

✅ NVFP4 bringt Production-Parität mit Cloud-Providern

Mein Fazit für KMU-Deployments:

Ollama 0.19 ist noch nicht das schnellste lokale Setup auf Apple Silicon — aber es ist das einfachste. Kein Python-Venv, kein nginx Load-Balancer, kein manuelles Start-Script.

Für Entwickler die Ollama heute schon nutzen: das Update lohnt sich sofort.

Für produktive Inference-Stacks: noch etwas warten bis NVFP4 auf mehr Modelle ausgerollt wird.

---

💻 Stack: Apple M2 Max 96GB | Ollama 0.19 (NVFP4) | vllm-mlx (MLX-4bit)

🔬 Modell: Qwen3.5-35B-A3B — beide Endpunkte

📊 3 Prompts × 3 Messungen + 2 Warm-up Runs, Thinking deaktiviert

0 comments