Inhaltsverzeichnis18 Abschnitte
- TL;DR
- Preise pro 1 Million Tokens (Mai 2026)
- Anthropic Claude
- OpenAI
- Google Gemini
- Cache-Mechanik im Detail
- Anthropic — Manuell, mächtig
- OpenAI — Automatisch, weniger Rabatt
- Praxisbeispiel: Customer-Support-Bot
- Welches Modell wann
- Frontier-Bedarf (Complex Reasoning, Coding)
- Standard-Workloads (Customer-Support, RAG, Klassifikation)
- Volume-Workloads (Tagging, Extraction, einfache Klassifikation)
- Long-Context (Code-Repo-Analyse, lange Dokumente)
- DACH-Sicherheits- und DSGVO-Aspekte
- Latenz
- Kostenstrategie konkret
- Quellen
Wer 2026 eine LLM-App in Produktion betreibt, vergleicht Anthropic und OpenAI nicht mehr nur über das beste Benchmark-Ergebnis, sondern über Kosten pro 1.000 echter User-Anfragen. Und da hat Prompt Caching die Rechnung komplett umgekrempelt.
Dieser Vergleich zeigt die aktuellen Preise (Mai 2026), wie der Cache jeweils funktioniert, und an welcher Stelle die Provider wirklich tier-different sind.
TL;DR
- Anthropic Prompt Caching rabattiert Cache-Reads auf
~10 % des normalen Input-Preises. Bei großen System-Prompts
- langen Konversationen ist das spielentscheidend.
- OpenAI Prompt Caching ist seit Ende 2024 automatisch (für ≥1024 Token Prefix), gibt 50 % Cache-Rabatt — schwächer als Anthropic, aber zero-config.
- Haiku 4.5 und GPT-5-mini sind die neuen Workhorses für Volumen-Workloads — 5–10× günstiger als Frontier-Modelle.
- Für DACH-DSGVO-Setups ist Anthropic via Google Vertex (EU) praktischer als OpenAI; Azure OpenAI ist die EU-Alternative.
Preise pro 1 Million Tokens (Mai 2026)
Anthropic Claude
| Modell | Input ohne Cache | Cache-Write (5 min) | Cache-Read | Output |
|---|---|---|---|---|
| Claude Opus 4.7 | $15 / 1M | $18,75 / 1M | $1,50 / 1M | $75 / 1M |
| Claude Sonnet 4.6 | $3 / 1M | $3,75 / 1M | $0,30 / 1M | $15 / 1M |
| Claude Haiku 4.5 | $0,80 / 1M | $1,00 / 1M | $0,08 / 1M | $4 / 1M |
OpenAI
| Modell | Input ohne Cache | Input cached | Output |
|---|---|---|---|
| GPT-5 | $5 / 1M | $2,50 / 1M | $20 / 1M |
| GPT-5-mini | $0,40 / 1M | $0,20 / 1M | $1,60 / 1M |
| o3 (Reasoning) | $20 / 1M | $10 / 1M | $80 / 1M |
| o3-mini | $1,50 / 1M | $0,75 / 1M | $6 / 1M |
Google Gemini
| Modell | Input | Output |
|---|---|---|
| Gemini 2.5 Pro | $1,25 / 1M | $10 / 1M |
| Gemini 2.5 Flash | $0,30 / 1M | $2,50 / 1M |
Gemini hat Context-Caching mit eigener Storage-Preis-Komponente ($1/1M Tokens/Stunde) — anderes Modell, separat zu berechnen.
Cache-Mechanik im Detail
Anthropic — Manuell, mächtig
Du markierst Cache-Breakpoints im Request explizit per
cache_control: { type: "ephemeral" }. 4 Breakpoints sind erlaubt.
Cache hält 5 Minuten (extendable auf 1 h gegen Aufpreis, neu seit
2025).
{
"system": [
{ "type": "text", "text": "Du bist ein..." },
{ "type": "text", "text": "Sehr langer Style-Guide...", "cache_control": { "type": "ephemeral" } }
],
"messages": [...]
}
Wirkung in echt:
- System-Prompt 8.000 Tokens + Tool-Definitionen 2.000 Tokens = 10k cached
- Pro Anfrage zahlst du dann nur die neuen Tokens (Conversation- Delta + Output) full price, der 10k-Prefix ist 10 % statt 100 %
- Bei 100 Anfragen/h: Ersparnis ~90 % auf den Prefix-Anteil
OpenAI — Automatisch, weniger Rabatt
OpenAI cached automatisch alles ab dem ersten 1.024-Token-Prefix-
Match. Du musst nichts tun. Aber: nur 50 % Rabatt, und Cache
ist nicht über Anfragen mit unterschiedlichen user-IDs geteilt.
Nicht so granular wie Anthropic, dafür kein Engineering nötig.
Praxisbeispiel: Customer-Support-Bot
System-Prompt (10k Tokens, Brand-Voice + 50 FAQ-Antworten als Reference). Pro Tag 50.000 User-Konversationen, jeweils 200 Tokens Input + 300 Tokens Output.
| Setup | Tokens-Tag | Kosten / Tag |
|---|---|---|
| Claude Sonnet ohne Cache | 510 M in + 15 M out | ~$1.755 |
| Claude Sonnet mit Cache (90 % Hit) | 50 M in + 460 M cache-read + 15 M out | ~$535 |
| GPT-5 ohne Cache | 510 M in + 15 M out | ~$2.850 |
| GPT-5 mit auto-Cache (90 % Hit) | 510 M in (50% cache) + 15 M out | ~$1.700 |
| Haiku 4.5 mit Cache | 50 M in + 460 M cache-read + 15 M out | ~$137 |
| GPT-5-mini mit auto-Cache | 510 M in + 15 M out | ~$132 |
Bei richtig konstruiertem Anthropic-Cache kommt Sonnet auf das Niveau von OpenAI ohne Cache. Bei kleinen Modellen (Haiku, GPT-5-mini) wird die App auf $130/Tag operierbar.
Welches Modell wann
Frontier-Bedarf (Complex Reasoning, Coding)
- Claude Opus 4.7: bestes Coding-Modell Stand Mai 2026, gut für Agent-Workflows
- OpenAI o3: stärker bei mathematischen / wissenschaftlichen Aufgaben, teurer
- Beide rechnen sich nur, wenn Aufgabe Frontier-Niveau braucht
Standard-Workloads (Customer-Support, RAG, Klassifikation)
- Claude Sonnet 4.6 + Cache: beste Mischung aus Qualität und Preis
- GPT-5: kompetitiv, automatisches Caching ist DX-Plus
- Gemini 2.5 Pro: günstigste Frontier-Class-Option
Volume-Workloads (Tagging, Extraction, einfache Klassifikation)
- Haiku 4.5: das Workhorse — schnell, billig, gut genug
- GPT-5-mini: vergleichbar, gleiche Klasse
- Gemini 2.5 Flash: günstigster Mainstream, sehr schnell
Long-Context (Code-Repo-Analyse, lange Dokumente)
- Gemini 2.5 Pro mit 1M-Context und Context-Caching: starker Use-Case
- Claude Sonnet 4.6 1M-Context: stabiler für agentische Loops
DACH-Sicherheits- und DSGVO-Aspekte
| Provider | EU-Region | DPA verfügbar | Datenspeicherung | Empfehlung |
|---|---|---|---|---|
| Anthropic direkt | nein | ja | US | Mit AVV gehbar, aber US-Transfer |
| Anthropic via Vertex (Google Cloud) | EU (europe-west1, -4, etc.) | über GCP-DPA | EU bleibt | Beste Option für EU-Daten |
| Anthropic via AWS Bedrock | EU (eu-central-1, irl) | über AWS-DPA | EU bleibt | Solide |
| OpenAI direkt | nein | ja | US | Schwieriger für EU-DSGVO |
| Azure OpenAI | EU (Sweden Central, France Central) | über MS-DPA | EU bleibt | Standard-DACH-Wahl |
Praxis-Empfehlung für DACH-Apps mit Personendaten:
- Anthropic via Vertex EU, oder
- Azure OpenAI
Latenz
Latenz aus eu-central-1, Mai 2026 (eigene Stichproben, p50):
| Endpoint | TTFT | Tokens/s output |
|---|---|---|
| Anthropic direct API | 480 ms | ~75 |
| Anthropic via Vertex EU | 350 ms | ~70 |
| Azure OpenAI Sweden | 320 ms | ~80 |
| OpenAI direct | 540 ms | ~85 |
| Groq (Llama) | 110 ms | ~250 |
| Cerebras | 90 ms | ~280 |
Für synchrone User-Apps in EU sind Vertex- und Azure-Endpoints spürbar besser als der Direct-Connect.
Kostenstrategie konkret
- Modell-Cascading: einfache Anfragen an Haiku/Mini, eskaliert an Sonnet, eskaliert an Opus.
- Prompt-Caching aktivieren: bei Anthropic explizit konfigurieren — 90 %-Ersparnis ist nicht selten.
- Embeddings nicht von Frontier-Modellen: für RAG nimm Cohere oder OpenAI text-embedding-3-large, nicht das LLM selbst.
- Batch-API: OpenAI und Anthropic bieten Batch-Endpoints mit 50 % Rabatt — für asynchrone Workloads wie Tagging, Embeddings, Reports.
- Output-Tokens begrenzen: 80 % der Kosten in den meisten
Apps kommen von Output, nicht Input.
max_tokenssetzen.
Quellen
- Anthropic Pricing
- Anthropic Prompt Caching Docs
- OpenAI Pricing
- OpenAI Prompt Caching
- Google Gemini Pricing
- Azure OpenAI Pricing
Modell-Preise und -Versionen ändern sich monatlich. Stand: 13. Mai 2026. Für Produktion immer aktuelle Provider-Pricing-Pages prüfen.
Geschrieben von
Harbinger Team
Cloud-, Data- und AI-Engineer in DACH. Schreibt seit 2018 über infrastrukturkritische Tech-Entscheidungen — keine Marketing- Folien, sondern echte Trade-offs aus Production-Workloads.
Hat dir das geholfen?
Jede Woche ein neuer Artikel über DACH-Cloud, Data und AI — direkt in dein Postfach. Kein Spam, kein Marketing-Sprech.
Kein Spam. 1-Klick-Abmeldung. Datenschutz bei Loops.so.