Das Ergebnis war zunächst enttäuschend. Dann wurde es interessant.
Gestern hat Ollama 0.19 eine Preview veröffentlicht: Apple MLX als neues Backend statt llama.cpp. Ich hab sofort einen direkten Vergleich aufgebaut: Ollama 0.19 vs. mein bestehendes vllm-mlx Setup. Gleiches Modell (Qwen3.5-35B), gleiche Prompts, echter Benchmark.
Erster Lauf. Ollama verliert haushoch:
→ vllm-mlx: TTFT 60 ms
→ Ollama 0.19: TTFT 26.000 ms
Der Grund: Thinking Mode. Ollama aktiviert ihn standardmäßig, vllm-mlx nicht. Kein fairer Vergleich.
Also Thinking deaktiviert — was sich als eigene Odyssee herausstellte:
✘ /no_think im Prompt? Ignoriert. Das Modell analysiert den Text buchstäblich: "Input: /no_think zähle von 1 bis 10"
✔ "think": false im API-Body? Funktioniert — aber nur bei Ollama
Nach dem Fix: der echte Vergleich.
SHORT (Wissensabfrage)
→ vllm-mlx: TTFT 60 ms | 85 Tokens/s | 1,5 s
→ Ollama 0.19: TTFT 86 ms | 68 Tokens/s | 1,8 s
CODE (C# HTTP-Client)
→ vllm-mlx: TTFT 56 ms | 79,6 Tokens/s | 29,5 s
→ Ollama 0.19: TTFT 76 ms | 65,5 Tokens/s | 28,1 s
LONG (KMU-Analyse, 5 Kriterien)
→ vllm-mlx: TTFT 64 ms | 77,5 Tokens/s | 21,6 s
→ Ollama 0.19: TTFT 85 ms | 60,9 Tokens/s | 28,9 s
Das Fazit in Zahlen:
vllm-mlx ist ~25% schneller in Tokens/s und hat ~30% niedrigeren RAM-Verbrauch (44-46 GB vs. 50-51 GB).
Was erklärt den RAM-Unterschied?
Ollama 0.19 lädt das NVFP4-Modell anders in den Unified Memory als mein bestehendes MLX-4bit in vllm. Ob das an der Quantisierung liegt oder am neuen Backend — unklar. Das wäre der nächste Test.
Was Ollama 0.19 trotzdem richtig macht:
✅ MLX als Backend ist die richtige Entscheidung — endlich kein llama.cpp-Workaround mehr
✅ "think": false funktioniert sauber über die API
✅ Caching über Conversations hinweg — relevant für Agenten-Workflows
✅ NVFP4 bringt Production-Parität mit Cloud-Providern
Mein Fazit für KMU-Deployments:
Ollama 0.19 ist noch nicht das schnellste lokale Setup auf Apple Silicon — aber es ist das einfachste. Kein Python-Venv, kein nginx Load-Balancer, kein manuelles Start-Script.
Für Entwickler die Ollama heute schon nutzen: das Update lohnt sich sofort.
Für produktive Inference-Stacks: noch etwas warten bis NVFP4 auf mehr Modelle ausgerollt wird.
---
💻 Stack: Apple M2 Max 96GB | Ollama 0.19 (NVFP4) | vllm-mlx (MLX-4bit)
🔬 Modell: Qwen3.5-35B-A3B — beide Endpunkte
📊 3 Prompts × 3 Messungen + 2 Warm-up Runs, Thinking deaktiviert