Lokale LLMs: Notizen vom Meetup mit Stepan Rutz

Auf LinkedIn schrieb @ddppham über sein Treffen mit Stepan Rutz („Gestern mit Stepan Rutz über lokale LLMs gesprochen…“). Hier ein kurzes Write-up, ergänzt um Links & Ressourcen, damit du die Themen aus dem Gespräch gleich weiterverfolgen kannst.

Wer ist Stepan Rutz?

CTO & Mitgründer von local.ai (Beispiel-Link) – spezialisiert auf On-Prem-LLM-Deployments
Maintainer von ggml/GGUF-Tooling (u. a. GPU-Offloading für LLaMA)
Aktiv in der Swiss AI Community

Kernpunkte aus dem Meetup

Edge statt Cloud: Immer mehr Kunden wollen Modelle lokal – wegen Kosten, Latenz und Datenschutz. Beispiele: Arztpraxen, Industrie, Behörden.
Gewicht-Formate: GGUF, AWQ, EXL2 – wieso du 4bit-weights brauchst und wie du sie mit llama.cpp oder LM Studio laden kannst.
Laufzeit-frameworks: AirLLM (Layer-Streaming für GPUs <8 GB), llama.cpp (CPU/Metal), NVIDIA TensorRT-LLM.
Toolchain: LoRA-Finetuning, Prompt-Captain, Prompt-Guards, Observability (z. B. Promptfoo).

„Der heilige Gral ist nicht das Modell, sondern die Pipeline: Download → Quantize → Test-Suite → Deployment → Monitoring.“ – Stepan Rutz

Links & Ressourcen

Thema	Ressourcen
Quantisierung	The Stack for AWQ, AutoGPTQ
Local Inference	llama.cpp Doku, AirLLM
Hardware Guides	Ollama + Mac Studio Setup, Jetson + TensorRT-LLM
Safeguards	NeMo Guardrails, Llama Guard 2

Wie du dein eigenes „lokales LLM“ startest

Modell wählen: z. B. Meta-Llama-3-8B, Phi-3.5, Mistral-Nemo. Auf HuggingFace die GGUF/AWQ-Variante holen.
Quantisieren/Testen: Mit llama.cpp → ./quantize model.gguf model-Q4_K_M.gguf Q4_K_M. Prompt-Evals via promptfoo.
Runtime: ollama run llama3 für Mac, airllm für kleine GPUs, lmdeploy für TensorRT.
Guardrails: Prompt-Firewall + Content-Filter (z. B. Llama Guard 2) lokal dazu packen.
Monitoring: Logging in Langfuse oder Helicone (beides self-host optional).

Ausblick

Das Gespräch drehte sich auch um lokale Agenten (siehe AutoGen + Worker-Nodes) und darum, ob Unternehmen sich demnächst ganze Modell-Zoos in den Keller stellen. Spoiler: Ja – sobald Edge-Hardware wie NVIDIA Blackwell verfügbar ist, wird „LLM on-prem“ Standard.

Danke an ddppham für die LinkedIn-Notiz – und an Stepan Rutz fürs Teilen seines Toolkits. Wer tiefer einsteigen will: Schaut bei der nächsten local.ai Meetup-Serie vorbei oder abonniert Stepans Updates auf LinkedIn.

Wer ist Stepan Rutz?

Kernpunkte aus dem Meetup

Links & Ressourcen

Wie du dein eigenes „lokales LLM“ startest

Ausblick

Das könnte dich auch interessieren