ARC-AGI-3 Preview: 30 Tage Interactive-Reasoning-Realität
Quelle: ARC Prize Foundation, „ ARC-AGI-3 Preview: 30-Day Learnings “ (27.03.2026) 3 schnelle Takeaways Menschen > Agenten – Über 1.200 Spieler:innen haben 3.900 Runs absolviert, viele „speedrunnen“ die Level auf theo …
AI-Researcher:innen, Agent-Builder, Benchmark-Nerds
Grundkenntnisse ARC-AGI / Chollet-Intelligenzmaß
Quelle: ARC Prize Foundation, „ARC-AGI-3 Preview: 30-Day Learnings“ (27.03.2026)
3 schnelle Takeaways
- Menschen > Agenten – Über 1.200 Spieler:innen haben 3.900 Runs absolviert, viele „speedrunnen“ die Level auf theoretische Minimalpfade. Agents brauchen ein Vielfaches an Aktionen.
- Random Search ist (noch) zu gut – Einige Games ließen sich bruteforcen; die finale Benchmark wird brute-force-resistenter.
- Action Efficiency als Intelligenzsignal – Statt nur „erreicht / nicht erreicht“ zählt jetzt das Verhältnis zwischen Umgebungsinformationen und erfolgreichen Aktionen (inspiriert von Chollets Measure of Intelligence).
Warum Interactive Reasoning Benchmarks (IRBs)?
- On-the-fly Learning: Keine Pattern-Memorisierung, jede Umgebung ist neu.
- Exploration: Können Agents gezielt Informationen sammeln?
- Memory & Goal Setting: Zwischenschritte planen, langfristige Ziele ableiten.
- Action Efficiency: Wie viele Schritte braucht man wirklich?
IRBs simulieren damit echte „Drop you into a new world“-Szenarien – ein Maßstab, den statische Benchmarks nie abgedeckt haben.
Die Preview-Games (öffentlich)
| Game | Typ | Kurzbeschreibung |
|---|---|---|
| ls20 | Agentisch, Map-basiert | Symbol transformieren & zum Ziel navigieren |
| ft09 | Nicht-agentisch, Logik | Muster matchen, inkl. Überlappungen |
| vc33 | Orchestration | Volumen mehrerer Objekte angleichen |
Plus drei private Games als Hidden Holdout für den Wettbewerb (Release folgt).
Scoring-Framework
- Aktionen zählen (pro Level) → Plotten vs. Fortschritt
- Baseline: Kontrollierte Human-Studie (>200 Personen) für die finale Version
- Exploration vs. Execution getrennt bewerten
- Score = Action-Effizienz pro Level vs. Human-Baseline, normalisiert pro Game, gemittelt über alle Games → 0–100 %
Dieses Setup spiegelt Tenenbaum et al. (Human-Level RL via Theory-Based Modeling, Exploration, and Planning) und Klassikern wie Dijkstra/A*.
Humans vs. AI
- Menschen verbringen wenige Aktionen auf Exploration, dann präzise Execution.
- Brute-Force-Agents brauchen 10–100× mehr Aktionen → ineffiziente Informationsnutzung.
- Visualisierung: Aktionsbudget (x) vs. Level (y) zeigt Varianz pro Game + Minimalpfade.
Agent Preview Competition (30 Tage)
Setup: Öffentliche Games + API (Hugging Face Sponsoring), Bewertung auf 3 privaten Levels. 12 Einreichungen, 8 auf Holdout getestet.
| Platz | Team / Repo | Ansatz | Score |
|---|---|---|---|
| 1 | StochasticGoose @ Tufa Labs | CNN Action-Learner (predictet frame changes) | 12.58 %, 18 Level |
| 2 | Blind Squirrel | State-Graph + ResNet18 Value Model | 6.71 %, 13 Level |
| HM | Play Zero Agent, Explore It Till You Solve It, Fluxonian | DSL/LLM + Graph + Video Loop | 2–8 % |
Selbst der Sieger bleibt bei 12.58 % – ein massives Gap zur menschlichen Effizienz.
Lessons Learned & Roadmap
- Undo & UI-Hints: Spieler wollten Rückgängig-Funktion und klarere Aktionshinweise. Kommt noch.
- Docs & API: Wechsel auf Mintlify reduzierte Friction.
- Offline Engine: Viele Teams wollen lokal trainieren → Engine in Arbeit.
- Early Exit & Caps: Manche Replays wurden >10 GB, künftig wird gebremst.
Was wir daraus mitnehmen
- Benchmarks neu denken – Gute LLM-Scores ≠ gute Weltmodelle. Interaktive Tests liefern ein besseres Bild.
- Effizienz > Accuracy – „Intelligence is efficiency.“ Score-Frameworks sollten Aktionskosten standardmäßig messen.
- Agent-Tooling – Self-play + World Models + Memory sind Pflicht, sonst bleiben Agents beim Brute-Force-Hopping.
- Evals als Produkt – Gute Onboarding-Doku + Undo + Offline-Support entscheidet, ob die Community mitmacht.
Wir bauen in unseren eigenen Projekten jetzt konsequent Action-Effizienz-Logging & Human-Baselines ein – wer nur Accuracy tracked, übersieht 90 % der Story.