ARC-AGI-3 Preview: 30 Tage Interactive-Reasoning-Realität

Quelle: ARC Prize Foundation, „ARC-AGI-3 Preview: 30-Day Learnings“ (27.03.2026)

3 schnelle Takeaways

Menschen > Agenten – Über 1.200 Spieler:innen haben 3.900 Runs absolviert, viele „speedrunnen“ die Level auf theoretische Minimalpfade. Agents brauchen ein Vielfaches an Aktionen.
Random Search ist (noch) zu gut – Einige Games ließen sich bruteforcen; die finale Benchmark wird brute-force-resistenter.
Action Efficiency als Intelligenzsignal – Statt nur „erreicht / nicht erreicht“ zählt jetzt das Verhältnis zwischen Umgebungsinformationen und erfolgreichen Aktionen (inspiriert von Chollets Measure of Intelligence).

Warum Interactive Reasoning Benchmarks (IRBs)?

On-the-fly Learning: Keine Pattern-Memorisierung, jede Umgebung ist neu.
Exploration: Können Agents gezielt Informationen sammeln?
Memory & Goal Setting: Zwischenschritte planen, langfristige Ziele ableiten.
Action Efficiency: Wie viele Schritte braucht man wirklich?

IRBs simulieren damit echte „Drop you into a new world“-Szenarien – ein Maßstab, den statische Benchmarks nie abgedeckt haben.

Die Preview-Games (öffentlich)

Game	Typ	Kurzbeschreibung
ls20	Agentisch, Map-basiert	Symbol transformieren & zum Ziel navigieren
ft09	Nicht-agentisch, Logik	Muster matchen, inkl. Überlappungen
vc33	Orchestration	Volumen mehrerer Objekte angleichen

Plus drei private Games als Hidden Holdout für den Wettbewerb (Release folgt).

Scoring-Framework

Aktionen zählen (pro Level) → Plotten vs. Fortschritt
Baseline: Kontrollierte Human-Studie (>200 Personen) für die finale Version
Exploration vs. Execution getrennt bewerten
Score = Action-Effizienz pro Level vs. Human-Baseline, normalisiert pro Game, gemittelt über alle Games → 0–100 %

Dieses Setup spiegelt Tenenbaum et al. (Human-Level RL via Theory-Based Modeling, Exploration, and Planning) und Klassikern wie Dijkstra/A*.

Humans vs. AI

Menschen verbringen wenige Aktionen auf Exploration, dann präzise Execution.
Brute-Force-Agents brauchen 10–100× mehr Aktionen → ineffiziente Informationsnutzung.
Visualisierung: Aktionsbudget (x) vs. Level (y) zeigt Varianz pro Game + Minimalpfade.

Agent Preview Competition (30 Tage)

Setup: Öffentliche Games + API (Hugging Face Sponsoring), Bewertung auf 3 privaten Levels. 12 Einreichungen, 8 auf Holdout getestet.

Platz	Team / Repo	Ansatz	Score
1	StochasticGoose @ Tufa Labs	CNN Action-Learner (predictet frame changes)	12.58 %, 18 Level
2	Blind Squirrel	State-Graph + ResNet18 Value Model	6.71 %, 13 Level
HM	Play Zero Agent, Explore It Till You Solve It, Fluxonian	DSL/LLM + Graph + Video Loop	2–8 %

Selbst der Sieger bleibt bei 12.58 % – ein massives Gap zur menschlichen Effizienz.

Lessons Learned & Roadmap

Undo & UI-Hints: Spieler wollten Rückgängig-Funktion und klarere Aktionshinweise. Kommt noch.
Docs & API: Wechsel auf Mintlify reduzierte Friction.
Offline Engine: Viele Teams wollen lokal trainieren → Engine in Arbeit.
Early Exit & Caps: Manche Replays wurden >10 GB, künftig wird gebremst.

Was wir daraus mitnehmen

Benchmarks neu denken – Gute LLM-Scores ≠ gute Weltmodelle. Interaktive Tests liefern ein besseres Bild.
Effizienz > Accuracy – „Intelligence is efficiency.“ Score-Frameworks sollten Aktionskosten standardmäßig messen.
Agent-Tooling – Self-play + World Models + Memory sind Pflicht, sonst bleiben Agents beim Brute-Force-Hopping.
Evals als Produkt – Gute Onboarding-Doku + Undo + Offline-Support entscheidet, ob die Community mitmacht.

Wir bauen in unseren eigenen Projekten jetzt konsequent Action-Effizienz-Logging & Human-Baselines ein – wer nur Accuracy tracked, übersieht 90 % der Story.