Rechner
LLM-API-Preisrechner: was dein AI-Stack wirklich kostet
Claude, GPT, Gemini, Mistral, Groq — alle Modelle nebeneinander. Mit Cache-Hit-Modellierung, weil das den Unterschied macht.
Günstigster Anbieter · Groq Mixtral 8x7B · Jahreskosten
201 €
Tageskosten 0,55 € · Monat 17 € — vs. Opus 4.7 (22.667 €/Jahr)
Use-Case
Alle Modelle · sortiert nach Tageskosten
13 Modelle
| Modell | €/Tag | €/Monat | Cache-Sav |
|---|---|---|---|
Mixtral (Groq)FastBEST groq | 0,552 € | 16,56 € | — |
Mistral SmallVolume mistral | 0,644 € | 19,32 € | — |
Llama 70B (Groq)Fast groq | 1,45 € | 43,47 € | — |
Gemini 2.5 FlashVolumecache | 1,70 € | 51,06 € | — |
o3-miniStandardcache openai | 4,05 € | 121 € | — |
Haiku 4.5Volumecache anthropic | 4,14 € | 124 € | — |
Mistral LargeStandard mistral | 6,44 € | 193 € | — |
GPT-5 miniStandardcache openai | 9,20 € | 276 € | — |
Gemini 2.5 ProFrontiercache | 11,50 € | 345 € | — |
Sonnet 4.6Standardcache anthropic | 12,42 € | 373 € | — |
o3Frontiercache openai | 36,80 € | 1.104 € | — |
GPT-5Frontiercache openai | 49,68 € | 1.490 € | — |
Opus 4.7Frontiercache anthropic | 62,10 € | 1.863 € | — |
Tageskosten · Top 8
Cache-Strategie kalkuliert
Anthropic Prompt-Caching ist seit 2024 verfügbar und hat das ökonomische Modell für viele LLM-Workloads radikal verändert. Die Mechanik ist simpel: wenn dein Prompt einen wiederkehrenden Teil hat (System-Prompt, Few-Shot-Examples, Dokument-Context), markierst du ihn als „cache_control: ephemeral". Bei jedem späteren Request, der denselben Cached-Block enthält, zahlst du nur 10 % vom normalen Input-Preis.
Beispiel: ein Customer-Support-Bot mit einem System-Prompt von 8.000 Tokens. Ohne Cache zahlst du für jeden User-Turn:
8.000 input × 3 USD/1M = 0,024 USD pro Request × 50.000 Requests/Tag = 1.200 USD/Tag = 36.000 USD/Monat
Mit Cache (90 % Hit-Rate auf den System-Prompt):
8.000 input × 90% × 0,30 USD/1M = 0,00216 USD 8.000 input × 10% × 3 USD/1M = 0,00240 USD Total Input: 0,00456 USD pro Request × 50.000 Requests/Tag = 228 USD/Tag = 6.840 USD/Monat
Ersparnis: 29.160 USD/Monat = 349.920 USD/Jahr. Das ist kein Tippfehler. Das ist der reale Hebel von Cache bei Volume-Use-Cases mit wiederkehrendem Context.
Wann lohnt sich Cache? Faustregel: System-Prompt ≥ 2.000 Tokens, Requests pro Cache-Lifetime (5 Minuten Default) ≥ 5. Wenn du diese beiden Hürden nimmst, zahlt sich Cache aus. Bei sehr seltenen oder sehr kleinen Prompts ist der initiale Cache-Write-Overhead (1,25x Input-Preis) nicht wieder reinzuholen.
Wann Haiku vs Sonnet vs Opus
Anthropic hat seit Claude 3 eine klare Modell-Hierarchie. Jedes Modell hat ungefähr 5x den Preis vom nächst-kleineren. Sonnet ist 5x teurer als Haiku, Opus ist 5x teurer als Sonnet. Das hat Konsequenzen für die Architektur.
Haiku 4.5 ist für Volume-Workloads gemacht. Tagging („welche Kategorie ist dieser Text?"), Klassifizierung („spam oder nicht?"), kurze Extraktion („extrahiere alle Emails aus diesem Text"). Bei diesen Aufgaben ist Haiku praktisch immer ausreichend — und 75x billiger als Opus. Bei einer Tagging-Pipeline mit 100.000 Calls/Tag kostet Haiku ca. 0,50 USD/Tag, Opus dagegen 37,50 USD/Tag. Beide würden den Job korrekt erledigen.
Sonnet 4.6 ist der Sweet-Spot für die Mehrheit der Produktions-Workloads. Customer-Support, RAG-Apps, Code-Reviews, Daten-Analyse, lange Conversational-Flows. Wenn du dich nicht entscheiden kannst, nimm Sonnet. In 90 % aller Fälle ist es richtig.
Opus 4.7 für die wirklich schwierigen Sachen: Multi-Step-Agents mit langen Tool-Chains, komplexes Reasoning, Code-Generierung über mehrere Files, mehrstündige Konversationen. Hier macht der Qualitätsunterschied einen messbaren ROI: ein Coding-Agent, der 90 % Korrektheit liefert vs 70 % spart dir das Manual-Debug-Zeit, das den Preisunterschied locker rechtfertigt.
Cascade-Pattern: viele produktive Workloads nutzen ein Cascade — erst Haiku, der entscheidet, ob die Anfrage „einfach" (Antwort direkt) oder „schwer" (an Sonnet/Opus eskalieren) ist. Das kann die durchschnittlichen Kosten massiv senken, weil 70-80 % der Anfragen meist trivial sind.
Batch-API-Discounts
Anthropic und OpenAI bieten Batch-APIs mit 50 % Rabatt. Du schickst ein Bundle von Requests, bekommst sie innerhalb von 24 Stunden zurück (meist deutlich schneller). Für Workloads, die nicht real-time sein müssen — ETL-Tagging, Nightly-Reports, Daten-Migration, Embedding-Generation — ist Batch immer eine gute Idee.
Praktisch heißt das: wenn dein Use-Case eine Pipeline ist, die einmal pro Stunde, einmal pro Tag oder einmal pro Nacht läuft, sollst du Batch nutzen. 50 % Ersparnis ohne jeden Qualitäts-Verlust, ohne jeden Code-Aufwand. Im Rechner ist Batch nicht modelliert — multipliziere die ausgewiesenen Kosten einfach mit 0,5.
Wenn dein Use-Case Real-Time ist (User wartet auf Antwort), geht Batch nicht. Da ist Cache der wichtigere Hebel.
Tool-Use und Token-Multiplikation
Was der Rechner nicht zeigt: Tool-Use verzehnfacht oft die Token- Counts. Wenn dein Agent 5 Tools aufruft pro Turn, und jeder Tool-Result wieder als Input zurückfließt, hast du nicht mehr 2k Input, sondern 15k. Bei langen Multi-Turn-Konversationen wächst der Context linear-bis-quadratisch.
Faustregel für Agents: rechne 3-5x den naiven Token-Count, den du für einen Single-Shot-Call annimmst. Coding-Agents mit File-Reading-Tools sind nochmal eine Liga drüber — leicht 50k-100k Tokens pro Turn.
Häufige Fragen
Was ist Prompt-Caching und warum ist es wichtig?
Bei Claude und GPT kannst du den unveränderten Teil deines System-Prompts (oder generell wiederkehrender Context) cachen. Beim ersten Schreiben kostet er etwas mehr (Anthropic: 1,25x Input-Preis für Schreiben), bei jedem Cache-Hit nur 10 % vom normalen Input-Preis. Bei einer Customer-Support-App mit 8k System-Prompt und 50k Calls/Tag spart Cache typisch 80-90 % der Input-Kosten.
Wann Haiku, wann Sonnet, wann Opus?
Faustregel: Opus für komplexe Reasoning-Tasks, lange Coding-Konversationen, Multi-Step-Agents. Sonnet ist der Sweet-Spot für 90 % aller Produktions-Tasks — gut genug, 5x billiger. Haiku für Volume-Pipelines: Tagging, Klassifizierung, einfache Extraktion. Wenn dein Use-Case 'klassifiziere diesen Text in eine von 5 Kategorien' ist, sollst du Haiku nehmen — Sonnet ist da Overkill.
Sind die Preise mit oder ohne Batch-Discount?
Ohne. Sowohl Anthropic als auch OpenAI bieten Batch-APIs mit 50 % Rabatt, wenn du asynchron mit 24h Latenz arbeitest. Für ETL-Pipelines und Tagging-Jobs ist das fast immer eine gute Idee. Im Rechner ist das nicht modelliert — rechne ggf. mit ×0,5 für Batch-Workloads.
Was bedeutet 'cached share' im Slider?
Anteil deines Inputs, der theoretisch cache-fähig ist. Beispiel: dein System-Prompt + few-shot examples sind 8k Tokens. Deine User-Frage ist nochmal 200 Tokens. Cache-Share = 8000 / 8200 ≈ 97 %. Davon wird der cache_hit_pct (Cache-Trefferrate) tatsächlich aus dem Cache bedient — der Rest ist neuer Input.
Warum sind o3 und GPT-5 ähnlich teuer?
o3 ist OpenAIs Reasoning-Modell, GPT-5 ist das General-Purpose-Modell. o3 hat mehr Latenz und ist auf logisches Reasoning optimiert, GPT-5 auf Conversational + Tool-Use. Preislich nimmt OpenAI für die Frontier-Modelle einen ähnlichen Range. Wenn du 'normale' Tasks hast: GPT-5. Wenn du Math-Olympiad-Probleme oder formales Reasoning brauchst: o3.
Wann ist Groq sinnvoll?
Groq ist Hardware-beschleunigt (LPU statt GPU) und liefert ~5-10x niedrigere Latenz als andere Inference-Anbieter. Wenn deine App auf Token-Per-Second-Latenz angewiesen ist (Real-Time-Translation, Voice-Agents, Live-Code-Completion), ist Groq sehr interessant. Preislich liegen Groq-Llama und Groq-Mixtral in einer eigenen Liga — günstig genug für High-Volume, schnell genug für UX-kritische Pfade.
Verwandte Rechner
Weiter rechnen
Newsletter
Jeden Freitag ein neuer Rechner oder Vergleich
Konkrete Zahl, keine 1.500-Wörter-Texte.
Mit der Anmeldung willigst du ein, von AInfach Data (Daten- & KI-Beratungsagentur) Werbe-E-Mails und Preisupdates zu erhalten. Bestätigung per Double-Opt-in, Abmeldung jederzeit mit 1 Klick.
Auch alle Rechner ansehen.