Optimierungs-Guide

11 Min. Lesezeit

Modelle wählen & routen

Meistere Model-Auswahl, gestuftes Routing und Kostenoptimierung. Konfiguriere OpenClaw, um Aufgaben automatisch zum richtigen Modell zum richtigen Preis zu routen.

Nicht alle KI-Aufgaben sind gleich. Eine einfache Begrüßung braucht weniger kognitive Power als ein komplexer Code-Review. Ein schneller Faktencheck unterscheidet sich von architektonischer Planung. Doch viele Nutzer zahlen Premium-Preise für jede Interaktion und verbrennen API-Budgets für Aufgaben, die billigere Modelle genauso gut erledigen.

Modell-Routing löst das. Es ist die Kunst, jede Aufgabe zum richtigen Modell zum richtigen Preis zu matchen. OpenClaw gibt dir ausgefeilte Werkzeuge dafür: Primary- und Thinking-Modelle, Multi-Tier-Konfigurationen und automatische Eskalation. Dieser Guide zeigt dir, wie du sie nutzt, um Kosten um 50-90% zu senken, ohne Qualität dort zu opfern, wo sie zählt.

Model-Tiers verstehen

Moderne KI-Provider bieten Modelle zu verschiedenen Preis- und Leistungspunkten. Diese Tiers zu verstehen ist essentiell für effektives Routing.

Tier 1: Schnell und günstig

Diese Modelle handhaben Routinearbeit effizient:

  • Claude Haiku: Schnelle Antworten, gut für einfache Q&A, Formatierung, Basis-Extraktion
  • GPT-3.5 Turbo: Zuverlässiges General-Purpose-Modell zu niedrigen Kosten
  • GLM-4.7 Flash: Open-Modell mit ausgezeichnetem Speed-to-Cost-Verhältnis
  • MiniMax M2.5: Kosteneffektiv für straightforwarde Aufgaben

Nutze für: FAQs, einfache Lookups, Formatierung, Zusammenfassung kurzer Texte, Basis-Code-Vervollständigung.

Tier 2: Fähig und ausgewogen

Die Arbeitspferde für die meisten Produktionsaufgaben:

  • Claude Sonnet 4.6: Ausgezeichnetes Reasoning zu moderaten Kosten
  • GPT-4: Starke allgemeine Fähigkeiten, gut für gemischte Workloads
  • GPT-4.5: Verbessertes Reasoning und Befolgen von Anweisungen
  • DeepSeek V3: Starkes Open-Modell mit wettbewerbsfähigem Pricing

Nutze für: Komplexe Anfragen, Multi-Step-Aufgaben, Code-Review, Content-Erstellung, Analyse.

Tier 3: Maximale Fähigkeit

Reserviere diese für die schwierigsten Probleme:

  • Claude Opus 4.6: Best-in-Class-Reasoning für komplexe Probleme
  • GPT-4 Turbo: Größtes Kontextfenster, stärkste Performance
  • GPT-5: Cutting-Edge-Fähigkeiten für anspruchsvolle Aufgaben

Nutze für: Komplexes Debugging, architektonische Entscheidungen, tiefe Recherche, kreatives Schreiben, trickiestes Reasoning.

Basis-Konfiguration

OpenClaws Modell-Konfiguration liegt in deiner openclaw.json. Hier ist, wie du sie einrichtest.

Single-Model-Setup

Die einfachste Konfiguration nutzt ein Modell für alles:

{
  "agents": {
    "defaults": {
      "model": {
        "primary": "anthropic/claude-sonnet-4-6-20260514"
      }
    }
  }
}

Das funktioniert für Entwicklung und Testing. Für Produktion willst du ausgefeilteres Routing.

Two-Tier-Setup: Primary + Thinking

Die häufigste Produktionskonfiguration trennt Routinearbeit von tiefem Reasoning:

{
  "agents": {
    "defaults": {
      "model": {
        "primary": "anthropic/claude-sonnet-4-6-20260514",
        "thinking": "anthropic/claude-opus-4-6-20260514"
      }
    }
  }
}

Mit diesem Setup:

  • Routine-Aufgaben nutzen Sonnet (billiger, schneller)
  • Komplexes Reasoning eskaliert automatisch zu Opus (fähiger, teurer)
  • Du zahlst Premium-Preise nur, wenn die Aufgabe es verlangt

Wie automatische Eskalation funktioniert

OpenClaw kann automatisch erkennen, wann das Thinking-Model genutzt werden sollte. Das zu verstehen hilft dir, dein Routing zu optimieren.

Signale für Eskalation

OpenClaw überwacht diese Indikatoren:

  • Task-Komplexitäts-Keywords: "debug", "architect", "design", "analyze deeply", "explain why"
  • Multi-Step-Indikatoren: Aufgabenlisten, "and then", "after that", Sequenzen
  • Code-Komplexität: Mehrere Dateien, Refactoring-Anfragen, Algorithmen-Design
  • Kontextlänge: Sehr lange Prompts, die auf komplexe Analyse hindeuten
  • Fehler-Recovery: Fehlgeschlagene Versuche, die tiefere Untersuchung brauchen

Manuelles Override

Du kannst Thinking-Mode mit Trigger-Phrasen erzwingen:

  • "Use thinking mode"
  • "Think deeply about this"
  • "/thinking on"

Oder wechsle Modelle mitten in einer Session:

# Wechsle zu Thinking-Model für diese Aufgabe
/model thinking

# Wechsle zurück zu Primary
/model primary

Advanced Multi-Tier-Routing

Für ausgefeilte Kostenoptimierung konfiguriere mehrere Tiers mit expliziten Routing-Regeln.

Three-Tier-Konfiguration

{
  "agents": {
    "defaults": {
      "models": {
        "catalog": [
          "anthropic/claude-haiku-4-6-20260514",
          "anthropic/claude-sonnet-4-6-20260514",
          "anthropic/claude-opus-4-6-20260514",
          "openai/gpt-3.5-turbo",
          "openai/gpt-4"
        ],
        "routing": {
          "tier1": {
            "models": ["anthropic/claude-haiku-4-6-20260514", "openai/gpt-3.5-turbo"],
            "triggers": ["greeting", "simple_query", "format", "summarize_short"]
          },
          "tier2": {
            "models": ["anthropic/claude-sonnet-4-6-20260514", "openai/gpt-4"],
            "triggers": ["code_review", "analysis", "writing", "multi_step"]
          },
          "tier3": {
            "models": ["anthropic/claude-opus-4-6-20260514"],
            "triggers": ["debug", "architect", "complex_reasoning", "creative"]
          }
        }
      }
    }
  }
}

Diese Konfiguration erstellt explizite Routing-Regeln basierend auf Aufgabenklassifizierung.

Routing-Strategien

Verschiedene Workflows profitieren von verschiedenen Routing-Ansätzen.

Strategie 1: Simples Two-Tier

Bestens geeignet für: Die meisten Nutzer, die mit Routing beginnen

Setup: Primary-Model + Thinking-Model

Logik: Automatische Eskalation auf Komplexitätssignale

Einsparungen: Typisch 40-60%

Strategie 2: Kosten-First

Bestens geeignet für: High-Volume, kostensensitive Anwendungen

Setup: Aggressive Nutzung von Tier-1-Modellen, minimales Tier 3

Logik: Nur eskalieren, wenn Tier 1 fehlschlägt oder Nutzer explizit anfragt

Einsparungen: Bis zu 80-90%

Trade-off: Einige komplexe Aufgaben brauchen möglicherweise manuellen Retry mit besseren Modellen

Strategie 3: Qualität-First

Bestens geeignet für: Kritische Anwendungen, wo Fehler teuer sind

Setup: Konservative Tier-1-Nutzung, großzügige Tier-3-Eskalation

Logik: Früh und oft eskalieren

Einsparungen: 20-40%

Benefit: Maximale Qualität, weniger Fehler

Strategie 4: Workflow-basiert

Bestens geeignet für: Multi-Step-Prozesse mit bekannten Anforderungen

Setup: Verschiedene Modelle für verschiedene Workflow-Stages

Logik: Datenextraktion → billiges Modell; Analyse → mittel; Finale Review → Premium

Einsparungen: 50-70%

Per-Agent Modell-Konfiguration

Verschiedene Agenten in deinem Setup können verschiedene Modelle nutzen. Das ermöglicht ausgefeilte Spezialisierung.

Beispiel: Spezialisierte Agenten

{
  "agents": {
    "entries": [
      {
        "name": "quick-helper",
        "model": {
          "primary": "anthropic/claude-haiku-4-6-20260514"
        },
        "description": "Schnelle, billige Antworten für einfache Anfragen"
      },
      {
        "name": "code-reviewer",
        "model": {
          "primary": "anthropic/claude-sonnet-4-6-20260514",
          "thinking": "anthropic/claude-opus-4-6-20260514"
        },
        "description": "Code-Review mit Eskalation für komplexe Issues"
      },
      {
        "name": "architect",
        "model": {
          "primary": "anthropic/claude-opus-4-6-20260514"
        },
        "description": "Immer Premium für architektonische Entscheidungen"
      }
    ]
  }
}

Route Nachrichten zum passenden Agenten basierend auf Intent, und jeder bekommt das richtige Modell für seinen Job.

Subagenten Modell-Routing

Subagenten erben standardmäßig Parent-Model-Einstellungen, aber du kannst pro Subagent überschreiben:

// Parent nutzt teures Modell, Subagent nutzt billiges
const runId = await sessions_spawn({
  task: "Fasse diese 50 Artikel zusammen",
  model: "anthropic/claude-haiku-4-6-20260514"  // Billig für einfache Aufgabe
});

// Mehrere Subagenten mit verschiedenen Modellen
const researchRun = await sessions_spawn({
  task: "Recherchiere dieses Thema tiefgehend",
  model: "anthropic/claude-sonnet-4-6-20260514"
});

const draftRun = await sessions_spawn({
  task: "Schreibe ersten Entwurf",
  model: "anthropic/claude-sonnet-4-6-20260514"
});

const polishRun = await sessions_spawn({
  task: "Poliere und finalisiere",
  model: "anthropic/claude-opus-4-6-20260514"  // Premium für finale Qualität
});

Dieser Ansatz gibt dir fein-granulare Kontrolle über Model-Auswahl für jeden Schritt eines Workflows.

Messen und Optimieren

Du kannst nicht optimieren, was du nicht misst. Verfolge diese Metriken:

Key Metriken

  • Kosten pro Konversation: Durchschnittliche API-Ausgaben pro Session
  • Model-Verteilung: Prozentsatz von Anfragen an jeden Tier
  • Eskalationsrate: Wie oft eskalieren Aufgaben zu höheren Tiers
  • Qualitätsscores: Nutzerzufriedenheit oder Fehlerraten pro Tier
  • Antwortzeiten: Latenz pro Model-Tier

Optimierungszyklus

  1. Baseline: Lauf mit aktuellem Routing für eine Woche
  2. Analysiere: Identifiziere teure Aufgaben, die möglicherweise billigere Modelle nutzen könnten
  3. Adjustiere: Feine Routing-Regeln oder Triggers
  4. Validiere: Prüfe, dass Qualität nicht gelitten hat
  5. Wiederhole: Iteriere monatlich

Häufige Routing-Fehler

Vermeide diese Fallstricke:

Over-Eskalation

Einfache Aufgaben an teure Modelle zu schicken verschwendet Geld. Wenn Tier 1 90% der Aufgaben gut handhabt, nutze es für 90% der Aufgaben. Defaulte nicht zu Premium "nur um sicher zu sein."

Under-Eskalation

Es zu verweigern zu eskalieren, wenn Aufgaben tatsächlich tiefes Reasoning brauchen, produziert schlechte Ergebnisse und frustrierte Nutzer. Balanciere Kosteneinsparungen mit Qualitätsanforderungen.

Kontextkosten ignorieren

Lange Konversationen werden teuer, selbst mit billigen Modellen. Implementiere Kontextfenster-Management: fasse alten Kontext zusammen, truncate wo angemessen, oder starte frische Sessions.

Statische Konfiguration

Model-Fähigkeiten und Preise ändern sich. Überprüfe deine Routing-Konfiguration vierteljährlich. Neue billigere Modelle können Aufgaben handhaben, die zuvor Premium-Tiers brauchten.

Provider-spezifische Tipps

Verschiedene Provider haben verschiedene Stärken:

Anthropic (Claude)

  • Haiku: Extrem schnell, großartig für einfache Aufgaben
  • Sonnet: Bestes Kosten-Leistungs-Verhältnis für die meisten Aufgaben
  • Opus: Unmatched Reasoning für komplexe Probleme
  • Thinking-Feature: Eingebaute Reasoning-Eskalation

OpenAI (GPT)

  • GPT-3.5: Zuverlässig, breit kompatibel
  • GPT-4: Starke Allround-Performance
  • GPT-4 Turbo: Bestes für sehr lange Kontexte
  • Function Calling: Exzellent für Tool-Nutzung

Open Models

  • GLM-4.7 Flash: Ausgezeichnete Geschwindigkeit, kompetitiv mit GPT-3.5
  • DeepSeek V3: Starkes Reasoning, niedrigere Kosten als Claude/GPT
  • Qwen 2.5: Gut für Coding-Aufgaben
  • Llama 3: Flexibel, selbst-hostbar für maximale Kontrolle

FAQ

Was ist Modell-Routing in OpenClaw?

Modell-Routing ist der Prozess der Auswahl, welches KI-Modell jede Aufgabe handhabt. OpenClaw unterstützt mehrere Routing-Strategien: manuelles Umschalten, Primary/Thinking-Tiering und Multi-Tier-Komplexitäts-basiertes Routing. Damit kannst du das Kosten-Qualitäts-Verhältnis für jede Interaktion optimieren.

Wie viel kann ich mit richtigem Modell-Routing sparen?

Typische Einsparungen reichen von 50% bis 90% bei API-Kosten. Indem du billigere Modelle für einfache Aufgaben nutzt und teure Modelle nur für komplexes Reasoning reservierst, zahlst du Premium-Preise nur wenn nötig. Viele Nutzer senken Kosten um 70% oder mehr.

Was ist der Unterschied zwischen Primary- und Thinking-Modellen?

Das Primary-Model handhabt Routinearbeit (Konversation, einfache Aufgaben). Das Thinking-Model aktiviert sich für komplexes Reasoning, Debugging oder Multi-Step-Logik. OpenClaw kann automatisch zum Thinking-Model eskalieren, wenn erweitertes Reasoning erkannt wird, und hält Kosten für alltägliche Interaktionen niedrig.

Kann ich verschiedene Provider im selben Setup nutzen?

Ja. OpenClaw unterstützt mehrere Provider gleichzeitig. Du kannst Claude von Anthropic, GPT von OpenAI und Open-Models von anderen Providern alle im selben Setup konfigurieren. Jeder Agent oder Subagent kann einen anderen Provider nutzen.

Beeinflusst Modell-Routing die Antwortqualität?

Bei korrekter Konfiguration verbessert Routing die effektive Qualität pro Dollar. Einfache Aufgaben bekommen schnelle, billige Antworten. Komplexe Aufgaben bekommen das schwere Reasoning, das sie brauchen. Der Schlüssel ist präzise Aufgabenklassifizierung und angemessene Routing-Regeln.

Getting Started Checkliste

Implementiere Modell-Routing Schritt für Schritt:

  1. Starte mit Primary + Thinking Two-Tier-Setup
  2. Laufe eine Woche und messe aktuelle Kosten
  3. Identifiziere deine teuersten Anfragetypen
  4. Füge einen dritten Tier hinzu, wenn diese Anfragen einfach sind
  5. Adjustiere Eskalation-Triggers basierend auf Ergebnissen
  6. Erwäge Per-Agent-Spezialisierungen
  7. Überprüfe und optimiere monatlich

Nächste Schritte

Modell-Routing ist eine Grundlage für kosteneffektive KI-Operationen. Kombiniere es mit anderen Optimierungsstrategien:

  • Subagenten: Nutze billige Modelle für parallele Subtasks
  • Kontext-Management: Halte Prompts schlank, um Token-Kosten zu reduzieren
  • Caching: Wiederverwende Model-Outputs wo angemessen
  • Prompt-Optimierung: Kürzere, klarere Prompts kosten weniger

Starte einfach. Ein basic Two-Tier-Setup liefert die meisten Benefits. Füge Komplexität nur hinzu, wenn du Daten hast, die zeigen, dass es nötig ist.

Need help from people who already use this stuff?

Brauchst du Hilfe bei der Auswahl oder Konfiguration von Modellen?

Tritt My AI Agent Profit Lab bei für praktische Hilfe, schnellere Antworten und real-world Model-Routing-Beispiele aus der Community.