Quelle: LinkedIn-Post von Micha Gross „Wieviel RAM braucht ein lokales KI-System?“ (31.03.2026)

1. Erst unterscheiden: VRAM vs. RAM

  • VRAM (Grafikkarte) bestimmt, welche Modellgröße du in voller Geschwindigkeit fahren kannst. Faustregel: 8 GB VRAM pro 7B-Modell (FP16). Mit Quantisierung (Q4) halbierst du den Bedarf.
  • System-RAM puffert Kontext, Uploads, Embeddings. Für lokale Chats reichen 32 GB, für RAG/Toolformer-Setups eher 64 GB+.

2. Richtwerte (Stand Q2/2026)

Modellgröße Empfohlene Quantisierung VRAM (flüssig) CPU/RAM-Option
7B (z. B. Llama 3.1 8B) Q4_K_M 6–8 GB CPU-Modus: 16 Threads + 32 GB RAM
13B Q4_K_M/Q5 10–12 GB CPU: 32 Threads + 48 GB RAM
33B Q4_K_M 20–24 GB CPU: 64 Threads + 96 GB RAM (langsam)
70B Q3_K_S/Q4 40–48 GB CPU-Betrieb unpraktikabel
405B (Mixtral, Command R+) nicht empfehlenswert lokal ≥80 GB VRAM + Multi-GPU Cloud besser

Quelle: Tests mit llama.cpp, vLLM, Nvidia RTX/Blackwell Karten; Erfahrungswerte aus community benchmarks.

3. Reale Builds

  1. „Schreibtisch-KI“ – RTX 4070 (12 GB VRAM), Ryzen 9, 64 GB RAM, 2 TB NVMe → 7B/13B-Modelle, Agent-Experimente, Bild-KI über ComfyUI. Kostet ~2.200 EUR.
  2. „Studio-Server“ – RTX 4090 (24 GB), Threadripper, 128 GB RAM → 33B-Modelle, RAG mit Milvus/Chroma lokal. ~4.500 EUR.
  3. „Team-Rack“ – 2×H100 80 GB oder Blackwell B200, 256 GB RAM, 10 TB NVMe → 70B+ Models, Multi-User. Leasingpreise ≥6k EUR/Monat.

4. Speicher & I/O

  • NVMe: mind. 2 TB für Modelle, Embeddings, Caches (ein 70B-Modell in mehreren Quantisierungen belegt >200 GB). PCIe 4.0/5.0 lohnt sich.
  • Network: Für RAG + Multi-User 10 GbE oder schneller (gerade wenn Vektordatenbanken auf separatem Host liegen).

5. Strom & Kühlung

  • GPU-Workloads ziehen Dauerlast; 4090 ≈ 450 W. Plane Uptime + Geräuschkulisse (AIO oder Server-Rack). Bei 24/7-Betrieb lohnt sich Unterbringung im Serverraum/Colo.

6. Software-Stack

  • llama.cpp / Ollama für Einzel-GPU-Setups, simple API.
  • vLLM oder TensorRT-LLM für Multi-GPU & Serve-Layer (durchsatzkritisch).
  • Modalitäten: Für Vision/Audio brauchst du 2–3 GB VRAM extra (CLIP-Encoder, Whisper). 16 GB VRAM ist sweet spot.

7. Entscheidungshilfe

  • Nur Chat? → 12 GB VRAM | 32–64 GB RAM.
  • Code, Toolformer, Embedding + RAG? → 24 GB VRAM | 64–128 GB RAM.
  • Multi-User / Fine-Tuning? → Multi-GPU, 128 GB RAM+, dedizierte Speicherlösung.

Fazit: RAM ist wichtig, aber ohne ausreichendes VRAM bremst du dich aus. Setz zuerst die GPU-Größe, wähle dann RAM (mind. 2× VRAM) und schnellen NVMe-Speicher. Wer mit 13B-Modellen happy ist, kommt mit 12 GB VRAM + 64 GB RAM aus – alles darüber braucht ernsthafte Hardware oder die Cloud.