Wieviel RAM braucht ein lokales KI-System?
Quelle: LinkedIn-Post von Micha Gross „Wieviel RAM braucht ein lokales KI-System?“ (31.03.2026) 1. Erst unterscheiden: VRAM vs. RAM VRAM (Grafikkarte) bestimmt, welche Modellgröße du in voller Geschwindigkeit fahren kann …
IT-Admins, Maker, KI-Bastler
Grundverständnis LLMs
Quelle: LinkedIn-Post von Micha Gross „Wieviel RAM braucht ein lokales KI-System?“ (31.03.2026)
1. Erst unterscheiden: VRAM vs. RAM
- VRAM (Grafikkarte) bestimmt, welche Modellgröße du in voller Geschwindigkeit fahren kannst. Faustregel: 8 GB VRAM pro 7B-Modell (FP16). Mit Quantisierung (Q4) halbierst du den Bedarf.
- System-RAM puffert Kontext, Uploads, Embeddings. Für lokale Chats reichen 32 GB, für RAG/Toolformer-Setups eher 64 GB+.
2. Richtwerte (Stand Q2/2026)
| Modellgröße | Empfohlene Quantisierung | VRAM (flüssig) | CPU/RAM-Option |
|---|---|---|---|
| 7B (z. B. Llama 3.1 8B) | Q4_K_M | 6–8 GB | CPU-Modus: 16 Threads + 32 GB RAM |
| 13B | Q4_K_M/Q5 | 10–12 GB | CPU: 32 Threads + 48 GB RAM |
| 33B | Q4_K_M | 20–24 GB | CPU: 64 Threads + 96 GB RAM (langsam) |
| 70B | Q3_K_S/Q4 | 40–48 GB | CPU-Betrieb unpraktikabel |
| 405B (Mixtral, Command R+) | nicht empfehlenswert lokal | ≥80 GB VRAM + Multi-GPU | Cloud besser |
Quelle: Tests mit llama.cpp, vLLM, Nvidia RTX/Blackwell Karten; Erfahrungswerte aus community benchmarks.
3. Reale Builds
- „Schreibtisch-KI“ – RTX 4070 (12 GB VRAM), Ryzen 9, 64 GB RAM, 2 TB NVMe → 7B/13B-Modelle, Agent-Experimente, Bild-KI über ComfyUI. Kostet ~2.200 EUR.
- „Studio-Server“ – RTX 4090 (24 GB), Threadripper, 128 GB RAM → 33B-Modelle, RAG mit Milvus/Chroma lokal. ~4.500 EUR.
- „Team-Rack“ – 2×H100 80 GB oder Blackwell B200, 256 GB RAM, 10 TB NVMe → 70B+ Models, Multi-User. Leasingpreise ≥6k EUR/Monat.
4. Speicher & I/O
- NVMe: mind. 2 TB für Modelle, Embeddings, Caches (ein 70B-Modell in mehreren Quantisierungen belegt >200 GB). PCIe 4.0/5.0 lohnt sich.
- Network: Für RAG + Multi-User 10 GbE oder schneller (gerade wenn Vektordatenbanken auf separatem Host liegen).
5. Strom & Kühlung
- GPU-Workloads ziehen Dauerlast; 4090 ≈ 450 W. Plane Uptime + Geräuschkulisse (AIO oder Server-Rack). Bei 24/7-Betrieb lohnt sich Unterbringung im Serverraum/Colo.
6. Software-Stack
- llama.cpp / Ollama für Einzel-GPU-Setups, simple API.
- vLLM oder TensorRT-LLM für Multi-GPU & Serve-Layer (durchsatzkritisch).
- Modalitäten: Für Vision/Audio brauchst du 2–3 GB VRAM extra (CLIP-Encoder, Whisper). 16 GB VRAM ist sweet spot.
7. Entscheidungshilfe
- Nur Chat? → 12 GB VRAM | 32–64 GB RAM.
- Code, Toolformer, Embedding + RAG? → 24 GB VRAM | 64–128 GB RAM.
- Multi-User / Fine-Tuning? → Multi-GPU, 128 GB RAM+, dedizierte Speicherlösung.
Fazit: RAM ist wichtig, aber ohne ausreichendes VRAM bremst du dich aus. Setz zuerst die GPU-Größe, wähle dann RAM (mind. 2× VRAM) und schnellen NVMe-Speicher. Wer mit 13B-Modellen happy ist, kommt mit 12 GB VRAM + 64 GB RAM aus – alles darüber braucht ernsthafte Hardware oder die Cloud.