Auf LinkedIn schrieb @ddppham über sein Treffen mit Stepan Rutz („Gestern mit Stepan Rutz über lokale LLMs gesprochen…“). Hier ein kurzes Write-up, ergänzt um Links & Ressourcen, damit du die Themen aus dem Gespräch gleich weiterverfolgen kannst.

Wer ist Stepan Rutz?

Kernpunkte aus dem Meetup

  1. Edge statt Cloud: Immer mehr Kunden wollen Modelle lokal – wegen Kosten, Latenz und Datenschutz. Beispiele: Arztpraxen, Industrie, Behörden.
  2. Gewicht-Formate: GGUF, AWQ, EXL2 – wieso du 4bit-weights brauchst und wie du sie mit llama.cpp oder LM Studio laden kannst.
  3. Laufzeit-frameworks: AirLLM (Layer-Streaming für GPUs <8 GB), llama.cpp (CPU/Metal), NVIDIA TensorRT-LLM.
  4. Toolchain: LoRA-Finetuning, Prompt-Captain, Prompt-Guards, Observability (z. B. Promptfoo).

„Der heilige Gral ist nicht das Modell, sondern die Pipeline: Download → Quantize → Test-Suite → Deployment → Monitoring.“ – Stepan Rutz

Thema Ressourcen
Quantisierung The Stack for AWQ, AutoGPTQ
Local Inference llama.cpp Doku, AirLLM
Hardware Guides Ollama + Mac Studio Setup, Jetson + TensorRT-LLM
Safeguards NeMo Guardrails, Llama Guard 2

Wie du dein eigenes „lokales LLM“ startest

  1. Modell wählen: z. B. Meta-Llama-3-8B, Phi-3.5, Mistral-Nemo. Auf HuggingFace die GGUF/AWQ-Variante holen.
  2. Quantisieren/Testen: Mit llama.cpp./quantize model.gguf model-Q4_K_M.gguf Q4_K_M. Prompt-Evals via promptfoo.
  3. Runtime: ollama run llama3 für Mac, airllm für kleine GPUs, lmdeploy für TensorRT.
  4. Guardrails: Prompt-Firewall + Content-Filter (z. B. Llama Guard 2) lokal dazu packen.
  5. Monitoring: Logging in Langfuse oder Helicone (beides self-host optional).

Ausblick

Das Gespräch drehte sich auch um lokale Agenten (siehe AutoGen + Worker-Nodes) und darum, ob Unternehmen sich demnächst ganze Modell-Zoos in den Keller stellen. Spoiler: Ja – sobald Edge-Hardware wie NVIDIA Blackwell verfügbar ist, wird „LLM on-prem“ Standard.

Danke an ddppham für die LinkedIn-Notiz – und an Stepan Rutz fürs Teilen seines Toolkits. Wer tiefer einsteigen will: Schaut bei der nächsten local.ai Meetup-Serie vorbei oder abonniert Stepans Updates auf LinkedIn.