Wieviel RAM braucht ein lokales KI-System?

Quelle: LinkedIn-Post von Micha Gross „Wieviel RAM braucht ein lokales KI-System?“ (31.03.2026)

1. Erst unterscheiden: VRAM vs. RAM

VRAM (Grafikkarte) bestimmt, welche Modellgröße du in voller Geschwindigkeit fahren kannst. Faustregel: 8 GB VRAM pro 7B-Modell (FP16). Mit Quantisierung (Q4) halbierst du den Bedarf.
System-RAM puffert Kontext, Uploads, Embeddings. Für lokale Chats reichen 32 GB, für RAG/Toolformer-Setups eher 64 GB+.

2. Richtwerte (Stand Q2/2026)

Modellgröße	Empfohlene Quantisierung	VRAM (flüssig)	CPU/RAM-Option
7B (z. B. Llama 3.1 8B)	Q4_K_M	6–8 GB	CPU-Modus: 16 Threads + 32 GB RAM
13B	Q4_K_M/Q5	10–12 GB	CPU: 32 Threads + 48 GB RAM
33B	Q4_K_M	20–24 GB	CPU: 64 Threads + 96 GB RAM (langsam)
70B	Q3_K_S/Q4	40–48 GB	CPU-Betrieb unpraktikabel
405B (Mixtral, Command R+)	nicht empfehlenswert lokal	≥80 GB VRAM + Multi-GPU	Cloud besser

Quelle: Tests mit llama.cpp, vLLM, Nvidia RTX/Blackwell Karten; Erfahrungswerte aus community benchmarks.

3. Reale Builds

„Schreibtisch-KI“ – RTX 4070 (12 GB VRAM), Ryzen 9, 64 GB RAM, 2 TB NVMe → 7B/13B-Modelle, Agent-Experimente, Bild-KI über ComfyUI. Kostet ~2.200 EUR.
„Studio-Server“ – RTX 4090 (24 GB), Threadripper, 128 GB RAM → 33B-Modelle, RAG mit Milvus/Chroma lokal. ~4.500 EUR.
„Team-Rack“ – 2×H100 80 GB oder Blackwell B200, 256 GB RAM, 10 TB NVMe → 70B+ Models, Multi-User. Leasingpreise ≥6k EUR/Monat.

4. Speicher & I/O

NVMe: mind. 2 TB für Modelle, Embeddings, Caches (ein 70B-Modell in mehreren Quantisierungen belegt >200 GB). PCIe 4.0/5.0 lohnt sich.
Network: Für RAG + Multi-User 10 GbE oder schneller (gerade wenn Vektordatenbanken auf separatem Host liegen).

5. Strom & Kühlung

GPU-Workloads ziehen Dauerlast; 4090 ≈ 450 W. Plane Uptime + Geräuschkulisse (AIO oder Server-Rack). Bei 24/7-Betrieb lohnt sich Unterbringung im Serverraum/Colo.

6. Software-Stack

llama.cpp / Ollama für Einzel-GPU-Setups, simple API.
vLLM oder TensorRT-LLM für Multi-GPU & Serve-Layer (durchsatzkritisch).
Modalitäten: Für Vision/Audio brauchst du 2–3 GB VRAM extra (CLIP-Encoder, Whisper). 16 GB VRAM ist sweet spot.

7. Entscheidungshilfe

Nur Chat? → 12 GB VRAM | 32–64 GB RAM.
Code, Toolformer, Embedding + RAG? → 24 GB VRAM | 64–128 GB RAM.
Multi-User / Fine-Tuning? → Multi-GPU, 128 GB RAM+, dedizierte Speicherlösung.

Fazit: RAM ist wichtig, aber ohne ausreichendes VRAM bremst du dich aus. Setz zuerst die GPU-Größe, wähle dann RAM (mind. 2× VRAM) und schnellen NVMe-Speicher. Wer mit 13B-Modellen happy ist, kommt mit 12 GB VRAM + 64 GB RAM aus – alles darüber braucht ernsthafte Hardware oder die Cloud.