AI on the Internet: Was 35 % KI-Texte wirklich bedeuten
Kontext Jonas Dolezal, Sawood Alam, Mark Graham und Maty Bohacek haben das Internet Archive (Wayback Machine) mit Pangram v3 durchforstet und AI on the Internet veröffentlicht: Bis Mitte 2025 sind bereits 35 % aller neu …
CIOs, KI-Teams, Policy
—
Kontext
Jonas Dolezal, Sawood Alam, Mark Graham und Maty Bohacek haben das Internet Archive (Wayback Machine) mit Pangram v3 durchforstet und AI on the Internet veröffentlicht: Bis Mitte 2025 sind bereits 35 % aller neu publizierten Websites KI-generiert oder KI-assistiert. Parallel wurden 903 US-Erwachsene befragt, wie sie die Effekte einschätzen.
Highlights in Zahlen
| Kennzahl | Wert |
|---|---|
| Anteil AI(-assistierter) Websites mid 2025 | ~35 % |
| Vor ChatGPT | ≈ 0 % |
| Signifikante Hypothesen | Semantic Contraction, Positivity Shift |
| Nicht bestätigt | Truth Decay, Epistemic Islands, Entropy Dilution, Stylistic Monoculture |
| Bevölkerung glaubt … | > 70 % sehen Truth Decay & Stylistic Monoculture als real |
1. Semantic Contraction (Hypothese 1)
- Signal: Durchschnittliche Cosine Similarity zwischen Text-Embeddings.
- Ergebnis: ρ = 0.47, p = 0.004 ➜ KI-Texte ähneln sich stärker; semantischer Ideenraum schrumpft.
- Wahrnehmung: 61 % Zustimmung.
2. Truth Decay (Hypothese 2)
- Signal: Anteil falscher Fakten (via GPT-4o Claim-Extraction + Human Fact-Check).
- Ergebnis: ρ = –0.19, p = 0.27 ➜ Keine Evidenz für mehr Halluzinationen.
- Wahrnehmung: 75 % glauben trotzdem daran.
3. Positivity Shift (Hypothese 3)
- Signal: Anteil positiver Sentiment-Klassifikationen.
- Ergebnis: ρ = 0.56, p = 0.0003 ➜ KI-Texte wirken signifikant freundlich/sanitized.
- Wahrnehmung: 72 % Zustimmung.
4–6. Epistemic Islands, Entropy Dilution, Stylistic Monoculture
- Outbound-Link-Dichte, Gzip-Ratio, Charakter-3-Gramm-Similarity: keine signifikanten Korrelationen.
- Dennoch glauben 70–83 % der Befragten an die Effekte.
- Besonders stark: Skeptische und seltene KI-Nutzer (88 % Zustimmung) vs. Heavy-User (76 %).
Was das bedeutet
- Diskurs homogenisiert sich. KI optimiert auf Durchschnitt, positive Tonalität, sanfte Antworten.
- Wahrheitsverlust ist (noch) kein Massenphänomen. Wahrnehmung > Realität – aber 35 % KI-Anteil macht Model-Collapse plötzlich realistisch.
- Governance-Lücke: Plattformen moderieren Hate Speech, aber nicht semantische Vielfalt oder provenience.
- Confidence Gap: Wer KI selten nutzt, glaubt den Mythen stärker – Kommunikationsstrategien müssen das adressieren.
Empfehlungen
- Semantische Diversität belohnen: Ranking-Algorithmen auf Vielfalt, belegte Quellen und verified human origin trimmen.
- Proof-of-Humanity etablieren: Kryptografische Content Credentials statt rückwirkender Detection.
- Training Data kuratieren: Foundation-Model-Anbieter müssen AI-Anteil im Crawler-Feed monitoren und ausgleichen.
- AI Literacy erweitern: Nutzer lernen, dass KI heute eher „zu glatt“ als „zu falsch“ schreibt.
Fazit
Das Web ist nicht tot, aber es wird homogener und freundlicher – nachweislich. Die Studie zerlegt Mythen (keine Wahrheitsexplosion, kein Stil-Lockstep) und zeigt, wo echte Risiken liegen: Ideenraum und Tonalität. Wer KI ernsthaft skalieren will, muss Vielfalt, Provenienz und Datenqualität genauso messen wie Tokens.Pro-Tipp: Strategy first, dann Model.