Anthropic vs OpenAI: API-Preise und Cache-Realität (Mai 2026)

Inhaltsverzeichnis18 Abschnitte

TL;DR
Preise pro 1 Million Tokens (Mai 2026)
Anthropic Claude
OpenAI
Google Gemini
Cache-Mechanik im Detail
Anthropic — Manuell, mächtig
OpenAI — Automatisch, weniger Rabatt
Praxisbeispiel: Customer-Support-Bot
Welches Modell wann
Frontier-Bedarf (Complex Reasoning, Coding)
Standard-Workloads (Customer-Support, RAG, Klassifikation)
Volume-Workloads (Tagging, Extraction, einfache Klassifikation)
Long-Context (Code-Repo-Analyse, lange Dokumente)
DACH-Sicherheits- und DSGVO-Aspekte
Latenz
Kostenstrategie konkret
Quellen

Wer 2026 eine LLM-App in Produktion betreibt, vergleicht Anthropic und OpenAI nicht mehr nur über das beste Benchmark-Ergebnis, sondern über Kosten pro 1.000 echter User-Anfragen. Und da hat Prompt Caching die Rechnung komplett umgekrempelt.

Dieser Vergleich zeigt die aktuellen Preise (Mai 2026), wie der Cache jeweils funktioniert, und an welcher Stelle die Provider wirklich tier-different sind.

TL;DR

Anthropic Prompt Caching rabattiert Cache-Reads auf ~10 % des normalen Input-Preises. Bei großen System-Prompts
- langen Konversationen ist das spielentscheidend.
OpenAI Prompt Caching ist seit Ende 2024 automatisch (für ≥1024 Token Prefix), gibt 50 % Cache-Rabatt — schwächer als Anthropic, aber zero-config.
Haiku 4.5 und GPT-5-mini sind die neuen Workhorses für Volumen-Workloads — 5–10× günstiger als Frontier-Modelle.
Für DACH-DSGVO-Setups ist Anthropic via Google Vertex (EU) praktischer als OpenAI; Azure OpenAI ist die EU-Alternative.

Preise pro 1 Million Tokens (Mai 2026)

Anthropic Claude

Modell	Input ohne Cache	Cache-Write (5 min)	Cache-Read	Output
Claude Opus 4.7	$15 / 1M	$18,75 / 1M	$1,50 / 1M	$75 / 1M
Claude Sonnet 4.6	$3 / 1M	$3,75 / 1M	$0,30 / 1M	$15 / 1M
Claude Haiku 4.5	$0,80 / 1M	$1,00 / 1M	$0,08 / 1M	$4 / 1M

OpenAI

Modell	Input ohne Cache	Input cached	Output
GPT-5	$5 / 1M	$2,50 / 1M	$20 / 1M
GPT-5-mini	$0,40 / 1M	$0,20 / 1M	$1,60 / 1M
o3 (Reasoning)	$20 / 1M	$10 / 1M	$80 / 1M
o3-mini	$1,50 / 1M	$0,75 / 1M	$6 / 1M

Google Gemini

Modell	Input	Output
Gemini 2.5 Pro	$1,25 / 1M	$10 / 1M
Gemini 2.5 Flash	$0,30 / 1M	$2,50 / 1M

Gemini hat Context-Caching mit eigener Storage-Preis-Komponente ($1/1M Tokens/Stunde) — anderes Modell, separat zu berechnen.

Cache-Mechanik im Detail

Anthropic — Manuell, mächtig

Du markierst Cache-Breakpoints im Request explizit per cache_control: { type: "ephemeral" }. 4 Breakpoints sind erlaubt. Cache hält 5 Minuten (extendable auf 1 h gegen Aufpreis, neu seit 2025).

{
  "system": [
    { "type": "text", "text": "Du bist ein..." },
    { "type": "text", "text": "Sehr langer Style-Guide...", "cache_control": { "type": "ephemeral" } }
  ],
  "messages": [...]
}

Wirkung in echt:

System-Prompt 8.000 Tokens + Tool-Definitionen 2.000 Tokens = 10k cached
Pro Anfrage zahlst du dann nur die neuen Tokens (Conversation- Delta + Output) full price, der 10k-Prefix ist 10 % statt 100 %
Bei 100 Anfragen/h: Ersparnis ~90 % auf den Prefix-Anteil

OpenAI — Automatisch, weniger Rabatt

OpenAI cached automatisch alles ab dem ersten 1.024-Token-Prefix- Match. Du musst nichts tun. Aber: nur 50 % Rabatt, und Cache ist nicht über Anfragen mit unterschiedlichen user-IDs geteilt.

Nicht so granular wie Anthropic, dafür kein Engineering nötig.

Praxisbeispiel: Customer-Support-Bot

System-Prompt (10k Tokens, Brand-Voice + 50 FAQ-Antworten als Reference). Pro Tag 50.000 User-Konversationen, jeweils 200 Tokens Input + 300 Tokens Output.

Setup	Tokens-Tag	Kosten / Tag
Claude Sonnet ohne Cache	510 M in + 15 M out	~$1.755
Claude Sonnet mit Cache (90 % Hit)	50 M in + 460 M cache-read + 15 M out	~$535
GPT-5 ohne Cache	510 M in + 15 M out	~$2.850
GPT-5 mit auto-Cache (90 % Hit)	510 M in (50% cache) + 15 M out	~$1.700
Haiku 4.5 mit Cache	50 M in + 460 M cache-read + 15 M out	~$137
GPT-5-mini mit auto-Cache	510 M in + 15 M out	~$132

Bei richtig konstruiertem Anthropic-Cache kommt Sonnet auf das Niveau von OpenAI ohne Cache. Bei kleinen Modellen (Haiku, GPT-5-mini) wird die App auf $130/Tag operierbar.

Welches Modell wann

Frontier-Bedarf (Complex Reasoning, Coding)

Claude Opus 4.7: bestes Coding-Modell Stand Mai 2026, gut für Agent-Workflows
OpenAI o3: stärker bei mathematischen / wissenschaftlichen Aufgaben, teurer
Beide rechnen sich nur, wenn Aufgabe Frontier-Niveau braucht

Standard-Workloads (Customer-Support, RAG, Klassifikation)

Claude Sonnet 4.6 + Cache: beste Mischung aus Qualität und Preis
GPT-5: kompetitiv, automatisches Caching ist DX-Plus
Gemini 2.5 Pro: günstigste Frontier-Class-Option

Volume-Workloads (Tagging, Extraction, einfache Klassifikation)

Haiku 4.5: das Workhorse — schnell, billig, gut genug
GPT-5-mini: vergleichbar, gleiche Klasse
Gemini 2.5 Flash: günstigster Mainstream, sehr schnell

Long-Context (Code-Repo-Analyse, lange Dokumente)

Gemini 2.5 Pro mit 1M-Context und Context-Caching: starker Use-Case
Claude Sonnet 4.6 1M-Context: stabiler für agentische Loops

DACH-Sicherheits- und DSGVO-Aspekte

Provider	EU-Region	DPA verfügbar	Datenspeicherung	Empfehlung
Anthropic direkt	nein	ja	US	Mit AVV gehbar, aber US-Transfer
Anthropic via Vertex (Google Cloud)	EU (europe-west1, -4, etc.)	über GCP-DPA	EU bleibt	Beste Option für EU-Daten
Anthropic via AWS Bedrock	EU (eu-central-1, irl)	über AWS-DPA	EU bleibt	Solide
OpenAI direkt	nein	ja	US	Schwieriger für EU-DSGVO
Azure OpenAI	EU (Sweden Central, France Central)	über MS-DPA	EU bleibt	Standard-DACH-Wahl

Praxis-Empfehlung für DACH-Apps mit Personendaten:

Anthropic via Vertex EU, oder
Azure OpenAI

Latenz

Latenz aus eu-central-1, Mai 2026 (eigene Stichproben, p50):

Endpoint	TTFT	Tokens/s output
Anthropic direct API	480 ms	~75
Anthropic via Vertex EU	350 ms	~70
Azure OpenAI Sweden	320 ms	~80
OpenAI direct	540 ms	~85
Groq (Llama)	110 ms	~250
Cerebras	90 ms	~280

Für synchrone User-Apps in EU sind Vertex- und Azure-Endpoints spürbar besser als der Direct-Connect.

Kostenstrategie konkret

Modell-Cascading: einfache Anfragen an Haiku/Mini, eskaliert an Sonnet, eskaliert an Opus.
Prompt-Caching aktivieren: bei Anthropic explizit konfigurieren — 90 %-Ersparnis ist nicht selten.
Embeddings nicht von Frontier-Modellen: für RAG nimm Cohere oder OpenAI text-embedding-3-large, nicht das LLM selbst.
Batch-API: OpenAI und Anthropic bieten Batch-Endpoints mit 50 % Rabatt — für asynchrone Workloads wie Tagging, Embeddings, Reports.
Output-Tokens begrenzen: 80 % der Kosten in den meisten Apps kommen von Output, nicht Input. max_tokens setzen.

Quellen

Modell-Preise und -Versionen ändern sich monatlich. Stand: 13. Mai 2026. Für Produktion immer aktuelle Provider-Pricing-Pages prüfen.

Geschrieben von

Harbinger Team

Cloud-, Data- und AI-Engineer in DACH. Schreibt seit 2018 über infrastrukturkritische Tech-Entscheidungen — keine Marketing- Folien, sondern echte Trade-offs aus Production-Workloads.

Mehr über Marc hello@harbingerexplorer.com

Hat dir das geholfen?

Jede Woche ein neuer Artikel über DACH-Cloud, Data und AI — direkt in dein Postfach. Kein Spam, kein Marketing-Sprech.

Kein Spam. 1-Klick-Abmeldung. Datenschutz bei Loops.so.