Rechner

LLM-API-Preisrechner: was dein AI-Stack wirklich kostet

Claude, GPT, Gemini, Mistral, Groq — alle Modelle nebeneinander. Mit Cache-Hit-Modellierung, weil das den Unterschied macht.

13 Modelle·5 Provider·Cache-fähig markiert·Stand 14.05.2026
live

Günstigster Anbieter · Groq Mixtral 8x7B · Jahreskosten

201

Tageskosten 0,55 € · Monat 17 — vs. Opus 4.7 (22.667 €/Jahr)

Groq Mixtral 8x7B · Fast

Use-Case

2.000tok
10013k25k38k50k
500tok
1001.0k2.0k3.0k4.0k
1.000
125k50k75k100k
0%
025507595
50%
025507590

Alle Modelle · sortiert nach Tageskosten

13 Modelle

Modell€/Tag€/MonatCache-Sav
Mixtral (Groq)FastBEST

groq

0,55216,56
Mistral SmallVolume

mistral

0,64419,32
Llama 70B (Groq)Fast

groq

1,4543,47
Gemini 2.5 FlashVolumecache

google

1,7051,06
o3-miniStandardcache

openai

4,05121
Haiku 4.5Volumecache

anthropic

4,14124
Mistral LargeStandard

mistral

6,44193
GPT-5 miniStandardcache

openai

9,20276
Gemini 2.5 ProFrontiercache

google

11,50345
Sonnet 4.6Standardcache

anthropic

12,42373
o3Frontiercache

openai

36,801.104
GPT-5Frontiercache

openai

49,681.490
Opus 4.7Frontiercache

anthropic

62,101.863

Tageskosten · Top 8

Mixtral (Groq)
0,552
Mistral Small
0,644
Llama 70B (Groq)
1,45
Gemini 2.5 Flash
1,70
o3-mini
4,05
Haiku 4.5
4,14
Mistral Large
6,44
GPT-5 mini
9,20
Listenpreise Mai 2026 · 13 Modelle · ohne Batch-Discounts · 30 Tage/MonatUSD→EUR ≈ 0.92

Cache-Strategie kalkuliert

Anthropic Prompt-Caching ist seit 2024 verfügbar und hat das ökonomische Modell für viele LLM-Workloads radikal verändert. Die Mechanik ist simpel: wenn dein Prompt einen wiederkehrenden Teil hat (System-Prompt, Few-Shot-Examples, Dokument-Context), markierst du ihn als „cache_control: ephemeral". Bei jedem späteren Request, der denselben Cached-Block enthält, zahlst du nur 10 % vom normalen Input-Preis.

Beispiel: ein Customer-Support-Bot mit einem System-Prompt von 8.000 Tokens. Ohne Cache zahlst du für jeden User-Turn:

8.000 input × 3 USD/1M = 0,024 USD pro Request
× 50.000 Requests/Tag = 1.200 USD/Tag = 36.000 USD/Monat

Mit Cache (90 % Hit-Rate auf den System-Prompt):

8.000 input × 90% × 0,30 USD/1M = 0,00216 USD
8.000 input × 10% × 3 USD/1M    = 0,00240 USD
Total Input: 0,00456 USD pro Request
× 50.000 Requests/Tag           = 228 USD/Tag = 6.840 USD/Monat

Ersparnis: 29.160 USD/Monat = 349.920 USD/Jahr. Das ist kein Tippfehler. Das ist der reale Hebel von Cache bei Volume-Use-Cases mit wiederkehrendem Context.

Wann lohnt sich Cache? Faustregel: System-Prompt ≥ 2.000 Tokens, Requests pro Cache-Lifetime (5 Minuten Default) ≥ 5. Wenn du diese beiden Hürden nimmst, zahlt sich Cache aus. Bei sehr seltenen oder sehr kleinen Prompts ist der initiale Cache-Write-Overhead (1,25x Input-Preis) nicht wieder reinzuholen.

Wann Haiku vs Sonnet vs Opus

Anthropic hat seit Claude 3 eine klare Modell-Hierarchie. Jedes Modell hat ungefähr 5x den Preis vom nächst-kleineren. Sonnet ist 5x teurer als Haiku, Opus ist 5x teurer als Sonnet. Das hat Konsequenzen für die Architektur.

Haiku 4.5 ist für Volume-Workloads gemacht. Tagging („welche Kategorie ist dieser Text?"), Klassifizierung („spam oder nicht?"), kurze Extraktion („extrahiere alle Emails aus diesem Text"). Bei diesen Aufgaben ist Haiku praktisch immer ausreichend — und 75x billiger als Opus. Bei einer Tagging-Pipeline mit 100.000 Calls/Tag kostet Haiku ca. 0,50 USD/Tag, Opus dagegen 37,50 USD/Tag. Beide würden den Job korrekt erledigen.

Sonnet 4.6 ist der Sweet-Spot für die Mehrheit der Produktions-Workloads. Customer-Support, RAG-Apps, Code-Reviews, Daten-Analyse, lange Conversational-Flows. Wenn du dich nicht entscheiden kannst, nimm Sonnet. In 90 % aller Fälle ist es richtig.

Opus 4.7 für die wirklich schwierigen Sachen: Multi-Step-Agents mit langen Tool-Chains, komplexes Reasoning, Code-Generierung über mehrere Files, mehrstündige Konversationen. Hier macht der Qualitätsunterschied einen messbaren ROI: ein Coding-Agent, der 90 % Korrektheit liefert vs 70 % spart dir das Manual-Debug-Zeit, das den Preisunterschied locker rechtfertigt.

Cascade-Pattern: viele produktive Workloads nutzen ein Cascade — erst Haiku, der entscheidet, ob die Anfrage „einfach" (Antwort direkt) oder „schwer" (an Sonnet/Opus eskalieren) ist. Das kann die durchschnittlichen Kosten massiv senken, weil 70-80 % der Anfragen meist trivial sind.

Batch-API-Discounts

Anthropic und OpenAI bieten Batch-APIs mit 50 % Rabatt. Du schickst ein Bundle von Requests, bekommst sie innerhalb von 24 Stunden zurück (meist deutlich schneller). Für Workloads, die nicht real-time sein müssen — ETL-Tagging, Nightly-Reports, Daten-Migration, Embedding-Generation — ist Batch immer eine gute Idee.

Praktisch heißt das: wenn dein Use-Case eine Pipeline ist, die einmal pro Stunde, einmal pro Tag oder einmal pro Nacht läuft, sollst du Batch nutzen. 50 % Ersparnis ohne jeden Qualitäts-Verlust, ohne jeden Code-Aufwand. Im Rechner ist Batch nicht modelliert — multipliziere die ausgewiesenen Kosten einfach mit 0,5.

Wenn dein Use-Case Real-Time ist (User wartet auf Antwort), geht Batch nicht. Da ist Cache der wichtigere Hebel.

Tool-Use und Token-Multiplikation

Was der Rechner nicht zeigt: Tool-Use verzehnfacht oft die Token- Counts. Wenn dein Agent 5 Tools aufruft pro Turn, und jeder Tool-Result wieder als Input zurückfließt, hast du nicht mehr 2k Input, sondern 15k. Bei langen Multi-Turn-Konversationen wächst der Context linear-bis-quadratisch.

Faustregel für Agents: rechne 3-5x den naiven Token-Count, den du für einen Single-Shot-Call annimmst. Coding-Agents mit File-Reading-Tools sind nochmal eine Liga drüber — leicht 50k-100k Tokens pro Turn.

Häufige Fragen

Was ist Prompt-Caching und warum ist es wichtig?

Bei Claude und GPT kannst du den unveränderten Teil deines System-Prompts (oder generell wiederkehrender Context) cachen. Beim ersten Schreiben kostet er etwas mehr (Anthropic: 1,25x Input-Preis für Schreiben), bei jedem Cache-Hit nur 10 % vom normalen Input-Preis. Bei einer Customer-Support-App mit 8k System-Prompt und 50k Calls/Tag spart Cache typisch 80-90 % der Input-Kosten.

Wann Haiku, wann Sonnet, wann Opus?

Faustregel: Opus für komplexe Reasoning-Tasks, lange Coding-Konversationen, Multi-Step-Agents. Sonnet ist der Sweet-Spot für 90 % aller Produktions-Tasks — gut genug, 5x billiger. Haiku für Volume-Pipelines: Tagging, Klassifizierung, einfache Extraktion. Wenn dein Use-Case 'klassifiziere diesen Text in eine von 5 Kategorien' ist, sollst du Haiku nehmen — Sonnet ist da Overkill.

Sind die Preise mit oder ohne Batch-Discount?

Ohne. Sowohl Anthropic als auch OpenAI bieten Batch-APIs mit 50 % Rabatt, wenn du asynchron mit 24h Latenz arbeitest. Für ETL-Pipelines und Tagging-Jobs ist das fast immer eine gute Idee. Im Rechner ist das nicht modelliert — rechne ggf. mit ×0,5 für Batch-Workloads.

Was bedeutet 'cached share' im Slider?

Anteil deines Inputs, der theoretisch cache-fähig ist. Beispiel: dein System-Prompt + few-shot examples sind 8k Tokens. Deine User-Frage ist nochmal 200 Tokens. Cache-Share = 8000 / 8200 ≈ 97 %. Davon wird der cache_hit_pct (Cache-Trefferrate) tatsächlich aus dem Cache bedient — der Rest ist neuer Input.

Warum sind o3 und GPT-5 ähnlich teuer?

o3 ist OpenAIs Reasoning-Modell, GPT-5 ist das General-Purpose-Modell. o3 hat mehr Latenz und ist auf logisches Reasoning optimiert, GPT-5 auf Conversational + Tool-Use. Preislich nimmt OpenAI für die Frontier-Modelle einen ähnlichen Range. Wenn du 'normale' Tasks hast: GPT-5. Wenn du Math-Olympiad-Probleme oder formales Reasoning brauchst: o3.

Wann ist Groq sinnvoll?

Groq ist Hardware-beschleunigt (LPU statt GPU) und liefert ~5-10x niedrigere Latenz als andere Inference-Anbieter. Wenn deine App auf Token-Per-Second-Latenz angewiesen ist (Real-Time-Translation, Voice-Agents, Live-Code-Completion), ist Groq sehr interessant. Preislich liegen Groq-Llama und Groq-Mixtral in einer eigenen Liga — günstig genug für High-Volume, schnell genug für UX-kritische Pfade.

Verwandte Rechner

Weiter rechnen

Newsletter

Jeden Freitag ein neuer Rechner oder Vergleich

Konkrete Zahl, keine 1.500-Wörter-Texte.

Mit der Anmeldung willigst du ein, von AInfach Data (Daten- & KI-Beratungsagentur) Werbe-E-Mails und Preisupdates zu erhalten. Bestätigung per Double-Opt-in, Abmeldung jederzeit mit 1 Klick.

Auch alle Rechner ansehen.