Qwen3.6-35B auf dem 16-GB-Laptop: Was wirklich geht

Worum geht’s?

Qwen3.6-35B-A3B ist ein starkes Sprachmodell (Open Source), das eigentlich riesig ist.
Trotzdem gibt es Varianten, die auf einem ganz normalen Laptop laufen.
Der Test: 16 GB Arbeitsspeicher, kein extra Grafikchip.

Die KI läuft – aber langsam. Die erste Antwort braucht ein paar Sekunden, danach geht es.
Texte zusammenfassen, übersetzen und einfache Aufgaben funktionieren sauber.
Programmierhilfe oder lange „Thinking“-Modi sind auf so wenig Speicher nicht sinnvoll.

Auch wenn nur „3 Milliarden aktive Parameter“ genannt werden, müssen alle 35 Milliarden geladen werden.
Mit einer besonders kompakten Variante („2-Bit“) belegt das Modell rund 12 GB – von deinen 16 GB RAM!
Bleiben 3–4 GB für Windows/macOS + die aktuell geöffnete Aufgabe. Mehr Kontext geht nicht, sonst friert alles ein.

Wunsch	Empfohlen	Was das bringt
Einfach ausprobieren	Laptop mit 16 GB RAM	Übersetzen, Chat, kleine Automationen
Mehr Tempo & Kontext	PC mit 24 GB Grafikspeicher (z. B. RTX 3090)	Schnelle Antworten, größere Texte
Viel Kontext (16 000 Token)	Mac mit 36–48 GB gemeinsamem Speicher (M3/M4)	Lange Dokumente, komplexe Dialoge

Kompakte Variante laden: Suche nach „Qwen3.6-35B UD-Q2_K_XL“ (ca. 12 GB).
Einfaches Tool verwenden: LM Studio oder Ollama installieren, Modell importieren, loslegen.
Kleine Aufgaben probieren: Übersetzungen, Zusammenfassungen, Chat – nicht gleich mit 100 Seiten PDFs starten.
„Thinking Mode“ auslassen: Der frisst zusätzlich Speicher und bringt auf schwacher Hardware wenig.
Geduld: 10–17 Tokens pro Sekunde = gut genug zum Lesen, langsam beim Schreiben.

Ja, es funktioniert – aber mit Kompromissen. Du bekommst eine starke KI direkt auf deinem Rechner, musst aber Tempo und Kontext im Blick behalten.
Wer regelmäßig mit großen Dokumenten oder Programmieraufgaben arbeitet, sollte in mehr Speicher oder eine Cloud-Lösung investieren.
Für neugierige Einsteiger:innen ist Qwen3.6-35B auf dem Laptop ein erstaunlicher Einstieg in die Welt lokaler KIs.