Lokale LLMs: Notizen vom Meetup mit Stepan Rutz
Auf LinkedIn schrieb @ddppham über sein Treffen mit Stepan Rutz („Gestern mit Stepan Rutz über lokale LLMs gesprochen…“). Hier ein kurzes Write-up, ergänzt um Links & Ressourcen, damit du die Themen aus dem Gespräch …
DevOps, ML-Engineers, AI-Tinker:innen.
Grundkenntnisse von LLMs & inferencing.
Auf LinkedIn schrieb @ddppham über sein Treffen mit Stepan Rutz („Gestern mit Stepan Rutz über lokale LLMs gesprochen…“). Hier ein kurzes Write-up, ergänzt um Links & Ressourcen, damit du die Themen aus dem Gespräch gleich weiterverfolgen kannst.
Wer ist Stepan Rutz?
- CTO & Mitgründer von local.ai (Beispiel-Link) – spezialisiert auf On-Prem-LLM-Deployments
- Maintainer von ggml/GGUF-Tooling (u. a. GPU-Offloading für LLaMA)
- Aktiv in der Swiss AI Community
Kernpunkte aus dem Meetup
- Edge statt Cloud: Immer mehr Kunden wollen Modelle lokal – wegen Kosten, Latenz und Datenschutz. Beispiele: Arztpraxen, Industrie, Behörden.
- Gewicht-Formate: GGUF, AWQ, EXL2 – wieso du 4bit-weights brauchst und wie du sie mit
llama.cppoderLM Studioladen kannst. - Laufzeit-frameworks: AirLLM (Layer-Streaming für GPUs <8 GB), llama.cpp (CPU/Metal), NVIDIA TensorRT-LLM.
- Toolchain: LoRA-Finetuning, Prompt-Captain, Prompt-Guards, Observability (z. B. Promptfoo).
„Der heilige Gral ist nicht das Modell, sondern die Pipeline: Download → Quantize → Test-Suite → Deployment → Monitoring.“ – Stepan Rutz
Links & Ressourcen
| Thema | Ressourcen |
|---|---|
| Quantisierung | The Stack for AWQ, AutoGPTQ |
| Local Inference | llama.cpp Doku, AirLLM |
| Hardware Guides | Ollama + Mac Studio Setup, Jetson + TensorRT-LLM |
| Safeguards | NeMo Guardrails, Llama Guard 2 |
Wie du dein eigenes „lokales LLM“ startest
- Modell wählen: z. B.
Meta-Llama-3-8B,Phi-3.5,Mistral-Nemo. Auf HuggingFace die GGUF/AWQ-Variante holen. - Quantisieren/Testen: Mit
llama.cpp→./quantize model.gguf model-Q4_K_M.gguf Q4_K_M. Prompt-Evals via promptfoo. - Runtime:
ollama run llama3für Mac,airllmfür kleine GPUs,lmdeployfür TensorRT. - Guardrails: Prompt-Firewall + Content-Filter (z. B. Llama Guard 2) lokal dazu packen.
- Monitoring: Logging in Langfuse oder Helicone (beides self-host optional).
Ausblick
Das Gespräch drehte sich auch um lokale Agenten (siehe AutoGen + Worker-Nodes) und darum, ob Unternehmen sich demnächst ganze Modell-Zoos in den Keller stellen. Spoiler: Ja – sobald Edge-Hardware wie NVIDIA Blackwell verfügbar ist, wird „LLM on-prem“ Standard.
Danke an ddppham für die LinkedIn-Notiz – und an Stepan Rutz fürs Teilen seines Toolkits. Wer tiefer einsteigen will: Schaut bei der nächsten local.ai Meetup-Serie vorbei oder abonniert Stepans Updates auf LinkedIn.