AI & LLMs

Anthropic vs OpenAI: API-Preise und Cache-Realität (Mai 2026)

Claude Opus, Sonnet, Haiku vs GPT-5 und o3 — Preise pro 1M Tokens, Cache-Mechanik im Detail und welche Modelle bei welcher Workload wirklich günstig sind.

Harbinger Team13. Mai 20266 Min. LesezeitAktualisiert 13.5.2026
  • anthropic
  • openai
  • claude
  • gpt
  • llm
  • api-preise
  • prompt-caching
Inhaltsverzeichnis18 Abschnitte

Wer 2026 eine LLM-App in Produktion betreibt, vergleicht Anthropic und OpenAI nicht mehr nur über das beste Benchmark-Ergebnis, sondern über Kosten pro 1.000 echter User-Anfragen. Und da hat Prompt Caching die Rechnung komplett umgekrempelt.

Dieser Vergleich zeigt die aktuellen Preise (Mai 2026), wie der Cache jeweils funktioniert, und an welcher Stelle die Provider wirklich tier-different sind.

TL;DR

  • Anthropic Prompt Caching rabattiert Cache-Reads auf ~10 % des normalen Input-Preises. Bei großen System-Prompts
    • langen Konversationen ist das spielentscheidend.
  • OpenAI Prompt Caching ist seit Ende 2024 automatisch (für ≥1024 Token Prefix), gibt 50 % Cache-Rabatt — schwächer als Anthropic, aber zero-config.
  • Haiku 4.5 und GPT-5-mini sind die neuen Workhorses für Volumen-Workloads — 5–10× günstiger als Frontier-Modelle.
  • Für DACH-DSGVO-Setups ist Anthropic via Google Vertex (EU) praktischer als OpenAI; Azure OpenAI ist die EU-Alternative.

Preise pro 1 Million Tokens (Mai 2026)

Anthropic Claude

ModellInput ohne CacheCache-Write (5 min)Cache-ReadOutput
Claude Opus 4.7$15 / 1M$18,75 / 1M$1,50 / 1M$75 / 1M
Claude Sonnet 4.6$3 / 1M$3,75 / 1M$0,30 / 1M$15 / 1M
Claude Haiku 4.5$0,80 / 1M$1,00 / 1M$0,08 / 1M$4 / 1M

OpenAI

ModellInput ohne CacheInput cachedOutput
GPT-5$5 / 1M$2,50 / 1M$20 / 1M
GPT-5-mini$0,40 / 1M$0,20 / 1M$1,60 / 1M
o3 (Reasoning)$20 / 1M$10 / 1M$80 / 1M
o3-mini$1,50 / 1M$0,75 / 1M$6 / 1M

Google Gemini

ModellInputOutput
Gemini 2.5 Pro$1,25 / 1M$10 / 1M
Gemini 2.5 Flash$0,30 / 1M$2,50 / 1M

Gemini hat Context-Caching mit eigener Storage-Preis-Komponente ($1/1M Tokens/Stunde) — anderes Modell, separat zu berechnen.

Cache-Mechanik im Detail

Anthropic — Manuell, mächtig

Du markierst Cache-Breakpoints im Request explizit per cache_control: { type: "ephemeral" }. 4 Breakpoints sind erlaubt. Cache hält 5 Minuten (extendable auf 1 h gegen Aufpreis, neu seit 2025).

{
  "system": [
    { "type": "text", "text": "Du bist ein..." },
    { "type": "text", "text": "Sehr langer Style-Guide...", "cache_control": { "type": "ephemeral" } }
  ],
  "messages": [...]
}

Wirkung in echt:

  • System-Prompt 8.000 Tokens + Tool-Definitionen 2.000 Tokens = 10k cached
  • Pro Anfrage zahlst du dann nur die neuen Tokens (Conversation- Delta + Output) full price, der 10k-Prefix ist 10 % statt 100 %
  • Bei 100 Anfragen/h: Ersparnis ~90 % auf den Prefix-Anteil

OpenAI — Automatisch, weniger Rabatt

OpenAI cached automatisch alles ab dem ersten 1.024-Token-Prefix- Match. Du musst nichts tun. Aber: nur 50 % Rabatt, und Cache ist nicht über Anfragen mit unterschiedlichen user-IDs geteilt.

Nicht so granular wie Anthropic, dafür kein Engineering nötig.

Praxisbeispiel: Customer-Support-Bot

System-Prompt (10k Tokens, Brand-Voice + 50 FAQ-Antworten als Reference). Pro Tag 50.000 User-Konversationen, jeweils 200 Tokens Input + 300 Tokens Output.

SetupTokens-TagKosten / Tag
Claude Sonnet ohne Cache510 M in + 15 M out~$1.755
Claude Sonnet mit Cache (90 % Hit)50 M in + 460 M cache-read + 15 M out~$535
GPT-5 ohne Cache510 M in + 15 M out~$2.850
GPT-5 mit auto-Cache (90 % Hit)510 M in (50% cache) + 15 M out~$1.700
Haiku 4.5 mit Cache50 M in + 460 M cache-read + 15 M out~$137
GPT-5-mini mit auto-Cache510 M in + 15 M out~$132

Bei richtig konstruiertem Anthropic-Cache kommt Sonnet auf das Niveau von OpenAI ohne Cache. Bei kleinen Modellen (Haiku, GPT-5-mini) wird die App auf $130/Tag operierbar.

Welches Modell wann

Frontier-Bedarf (Complex Reasoning, Coding)

  • Claude Opus 4.7: bestes Coding-Modell Stand Mai 2026, gut für Agent-Workflows
  • OpenAI o3: stärker bei mathematischen / wissenschaftlichen Aufgaben, teurer
  • Beide rechnen sich nur, wenn Aufgabe Frontier-Niveau braucht

Standard-Workloads (Customer-Support, RAG, Klassifikation)

  • Claude Sonnet 4.6 + Cache: beste Mischung aus Qualität und Preis
  • GPT-5: kompetitiv, automatisches Caching ist DX-Plus
  • Gemini 2.5 Pro: günstigste Frontier-Class-Option

Volume-Workloads (Tagging, Extraction, einfache Klassifikation)

  • Haiku 4.5: das Workhorse — schnell, billig, gut genug
  • GPT-5-mini: vergleichbar, gleiche Klasse
  • Gemini 2.5 Flash: günstigster Mainstream, sehr schnell

Long-Context (Code-Repo-Analyse, lange Dokumente)

  • Gemini 2.5 Pro mit 1M-Context und Context-Caching: starker Use-Case
  • Claude Sonnet 4.6 1M-Context: stabiler für agentische Loops

DACH-Sicherheits- und DSGVO-Aspekte

ProviderEU-RegionDPA verfügbarDatenspeicherungEmpfehlung
Anthropic direktneinjaUSMit AVV gehbar, aber US-Transfer
Anthropic via Vertex (Google Cloud)EU (europe-west1, -4, etc.)über GCP-DPAEU bleibtBeste Option für EU-Daten
Anthropic via AWS BedrockEU (eu-central-1, irl)über AWS-DPAEU bleibtSolide
OpenAI direktneinjaUSSchwieriger für EU-DSGVO
Azure OpenAIEU (Sweden Central, France Central)über MS-DPAEU bleibtStandard-DACH-Wahl

Praxis-Empfehlung für DACH-Apps mit Personendaten:

  • Anthropic via Vertex EU, oder
  • Azure OpenAI

Latenz

Latenz aus eu-central-1, Mai 2026 (eigene Stichproben, p50):

EndpointTTFTTokens/s output
Anthropic direct API480 ms~75
Anthropic via Vertex EU350 ms~70
Azure OpenAI Sweden320 ms~80
OpenAI direct540 ms~85
Groq (Llama)110 ms~250
Cerebras90 ms~280

Für synchrone User-Apps in EU sind Vertex- und Azure-Endpoints spürbar besser als der Direct-Connect.

Kostenstrategie konkret

  1. Modell-Cascading: einfache Anfragen an Haiku/Mini, eskaliert an Sonnet, eskaliert an Opus.
  2. Prompt-Caching aktivieren: bei Anthropic explizit konfigurieren — 90 %-Ersparnis ist nicht selten.
  3. Embeddings nicht von Frontier-Modellen: für RAG nimm Cohere oder OpenAI text-embedding-3-large, nicht das LLM selbst.
  4. Batch-API: OpenAI und Anthropic bieten Batch-Endpoints mit 50 % Rabatt — für asynchrone Workloads wie Tagging, Embeddings, Reports.
  5. Output-Tokens begrenzen: 80 % der Kosten in den meisten Apps kommen von Output, nicht Input. max_tokens setzen.

Quellen

Modell-Preise und -Versionen ändern sich monatlich. Stand: 13. Mai 2026. Für Produktion immer aktuelle Provider-Pricing-Pages prüfen.

H

Geschrieben von

Harbinger Team

Cloud-, Data- und AI-Engineer in DACH. Schreibt seit 2018 über infrastruktur­kritische Tech-Entscheidungen — keine Marketing- Folien, sondern echte Trade-offs aus Production-Workloads.

Hat dir das geholfen?

Jede Woche ein neuer Artikel über DACH-Cloud, Data und AI — direkt in dein Postfach. Kein Spam, kein Marketing-Sprech.

Kein Spam. 1-Klick-Abmeldung. Datenschutz bei Loops.so.