Quelle: ARC Prize Foundation, „ARC-AGI-3 Preview: 30-Day Learnings“ (27.03.2026)

3 schnelle Takeaways

  1. Menschen > Agenten – Über 1.200 Spieler:innen haben 3.900 Runs absolviert, viele „speedrunnen“ die Level auf theoretische Minimalpfade. Agents brauchen ein Vielfaches an Aktionen.
  2. Random Search ist (noch) zu gut – Einige Games ließen sich bruteforcen; die finale Benchmark wird brute-force-resistenter.
  3. Action Efficiency als Intelligenzsignal – Statt nur „erreicht / nicht erreicht“ zählt jetzt das Verhältnis zwischen Umgebungsinformationen und erfolgreichen Aktionen (inspiriert von Chollets Measure of Intelligence).

Warum Interactive Reasoning Benchmarks (IRBs)?

  • On-the-fly Learning: Keine Pattern-Memorisierung, jede Umgebung ist neu.
  • Exploration: Können Agents gezielt Informationen sammeln?
  • Memory & Goal Setting: Zwischenschritte planen, langfristige Ziele ableiten.
  • Action Efficiency: Wie viele Schritte braucht man wirklich?

IRBs simulieren damit echte „Drop you into a new world“-Szenarien – ein Maßstab, den statische Benchmarks nie abgedeckt haben.

Die Preview-Games (öffentlich)

Game Typ Kurzbeschreibung
ls20 Agentisch, Map-basiert Symbol transformieren & zum Ziel navigieren
ft09 Nicht-agentisch, Logik Muster matchen, inkl. Überlappungen
vc33 Orchestration Volumen mehrerer Objekte angleichen

Plus drei private Games als Hidden Holdout für den Wettbewerb (Release folgt).

Scoring-Framework

  • Aktionen zählen (pro Level) → Plotten vs. Fortschritt
  • Baseline: Kontrollierte Human-Studie (>200 Personen) für die finale Version
  • Exploration vs. Execution getrennt bewerten
  • Score = Action-Effizienz pro Level vs. Human-Baseline, normalisiert pro Game, gemittelt über alle Games → 0–100 %

Dieses Setup spiegelt Tenenbaum et al. (Human-Level RL via Theory-Based Modeling, Exploration, and Planning) und Klassikern wie Dijkstra/A*.

Humans vs. AI

  • Menschen verbringen wenige Aktionen auf Exploration, dann präzise Execution.
  • Brute-Force-Agents brauchen 10–100× mehr Aktionen → ineffiziente Informationsnutzung.
  • Visualisierung: Aktionsbudget (x) vs. Level (y) zeigt Varianz pro Game + Minimalpfade.

Agent Preview Competition (30 Tage)

Setup: Öffentliche Games + API (Hugging Face Sponsoring), Bewertung auf 3 privaten Levels. 12 Einreichungen, 8 auf Holdout getestet.

Platz Team / Repo Ansatz Score
1 StochasticGoose @ Tufa Labs CNN Action-Learner (predictet frame changes) 12.58 %, 18 Level
2 Blind Squirrel State-Graph + ResNet18 Value Model 6.71 %, 13 Level
HM Play Zero Agent, Explore It Till You Solve It, Fluxonian DSL/LLM + Graph + Video Loop 2–8 %

Selbst der Sieger bleibt bei 12.58 % – ein massives Gap zur menschlichen Effizienz.

Lessons Learned & Roadmap

  • Undo & UI-Hints: Spieler wollten Rückgängig-Funktion und klarere Aktionshinweise. Kommt noch.
  • Docs & API: Wechsel auf Mintlify reduzierte Friction.
  • Offline Engine: Viele Teams wollen lokal trainieren → Engine in Arbeit.
  • Early Exit & Caps: Manche Replays wurden >10 GB, künftig wird gebremst.

Was wir daraus mitnehmen

  1. Benchmarks neu denken – Gute LLM-Scores ≠ gute Weltmodelle. Interaktive Tests liefern ein besseres Bild.
  2. Effizienz > Accuracy – „Intelligence is efficiency.“ Score-Frameworks sollten Aktionskosten standardmäßig messen.
  3. Agent-Tooling – Self-play + World Models + Memory sind Pflicht, sonst bleiben Agents beim Brute-Force-Hopping.
  4. Evals als Produkt – Gute Onboarding-Doku + Undo + Offline-Support entscheidet, ob die Community mitmacht.

Wir bauen in unseren eigenen Projekten jetzt konsequent Action-Effizienz-Logging & Human-Baselines ein – wer nur Accuracy tracked, übersieht 90 % der Story.