Vintage LLMs – Sprachmodelle mit Wissensstand 1913

Quelle: Research Bite des XM Institute (Mai 2026) + LinkedIn-Diskussion.

Was sind „Vintage LLMs“?

Sprachmodelle, die nur Texte bis zu einem fixen Stichjahr sehen (z. B. 1913, 1930).
Sie werden from scratch trainiert – kein Feintuning moderner Systeme.
Sie kennen also weder moderne Ereignisse noch Begriffe und spiegeln das Weltbild ihrer Epoche wider.

Beispiele:
- Talkie-1930 (Alec Radford & Team) – 13 B Parameter, trainiert auf Büchern, Zeitungen, Patenten bis 1931.
- Ranke-4B-1913 – universitär (Zürich/Köln), Wissensstand 1913.
- Mr. Chatterbox – 340 M Parameter, viktorianische Texte 1837–1899.
- Kuratierte Liste: awesome-vintage-llms (GitHub)

Warum nicht einfach GPT „im Stil von 1890“ schreiben lassen?

Moderne Modelle besitzen heutiges Weltwissen und Wertannahmen.
Stil-Feintuning erzeugt nur Oberfläche – kein echtes historisches Wissen.
Vintage LLMs sind „ahnungslos“ gegenüber späteren Ereignissen (Ranke-4B kennt Hitler nicht, Talkie-1930 kein Penicillin).

Fünf Anwendungsfelder

Forecasting & Backtesting – Modelle mit historischem Wissensschatz eignen sich für saubere Tests („Was hätte ein Analyst 1930 gesagt?“).
Digital Humanities – Historiker:innen können Diskussionen/Ideen der Zeit simulieren, ohne dass spätere Konzepte hineinmischen.
Reinvent-/Retro-Experimente – Technische Ideen „neu“ erfinden lassen, um Pfadabhängigkeiten zu verstehen.
Urheberrechtskonformes Training – Public-Domain-Korpora demonstrieren, dass hochwertige Modelle ohne heikle Daten möglich sind.
Kulturelle Forschung & Bildung – Schulen/Museen nutzen Modelle als interaktive Zeitzeugen („Frag London 1870“).

Herausforderungen

Datenkuratorik: Hochwertige historische Korpora sind rar, OCR-Qualität schwankt.
Bias & Werte: Modelle spiegeln die Vorurteile ihrer Epoche – bewusster Umgang nötig.
Größenordnung: Training „from scratch“ bleibt teuer (z. B. Talkie-1930 mit 260 B Tokens).

Fazit

Vintage LLMs sind mehr als eine nostalgische Spielerei. Sie öffnen neue Forschungsfelder, liefern rechtssichere Trainingspfade – und zeigen, dass KI nicht nur Gegenwart simulieren muss, sondern auch Vergangenheit modellieren kann. Wer Forecasting testet, Digital Humanities betreibt oder Compliance-Modelle braucht, sollte diese Zeitkapsel-Modelle ernst nehmen.

Was sind „Vintage LLMs“?

Warum nicht einfach GPT „im Stil von 1890“ schreiben lassen?

Fünf Anwendungsfelder

Herausforderungen

Fazit

Das könnte dich auch interessieren