News · AI & LLMs

Anthropic verlängert Prompt-Caching auf 1 Stunde — wann sich der Aufpreis lohnt

Anthropic gibt Cache-TTL von 5 Minuten auf 1 Stunde frei — gegen Aufpreis. Wann das Sinn ergibt, und wann der 5-Minuten-Cache reicht.

Harbinger Team·13. Mai 2026
Quelle
Anthropic Engineering Blog— gepostet 13. Mai 2026

Anthropic hat heute offiziell eine 1-Stunden-Cache-TTL für Prompt-Caching freigeschaltet. Vorher war jeder Cache-Eintrag nach 5 Minuten Idle-Zeit weg. Die neue Option läuft als Beta in der öffentlichen API und kommt in den nächsten 48 h auf AWS Bedrock und Google Vertex.

TL;DR

  • 1-Stunden-Cache ist verfügbar via neuem cache_control: { type: "ephemeral", ttl: "1h" }-Parameter.
  • Cache-Write-Aufpreis: 2× normaler Input-Preis (statt 1,25× bei 5-Minuten-Cache).
  • Cache-Read-Preis unverändert bei 10 % Input.
  • Limit: weiterhin 4 Cache-Breakpoints pro Request.
  • Verfügbar für Opus 4.7, Sonnet 4.6, Haiku 4.5 — alle drei Modelle, alle drei Plattformen (API direkt, Bedrock, Vertex).

Was wurde geändert

Der bestehende cache_control-Block bekommt einen optionalen ttl-Parameter, der "5m" (Default) oder "1h" akzeptiert. Der Cache hält dann genau so lange ab letztem Hit — wird er innerhalb der TTL erneut getroffen, läuft die Uhr von vorne.

Die Preis-Mechanik:

TTLWrite-MultiplierRead-Multiplier
5 min1,25×0,10×
1 h2,0×0,10×

Sprich: für Sonnet 4.6 kostet ein 10k-Token Cache-Write mit 1 h TTL 6 $ statt 3,75 $. Read bleibt bei 30 Cent / 1M Tokens.

Was bedeutet das für DACH-Teams

Der 1-Stunden-Cache ist nicht für alle Apps die richtige Wahl. Faustregel:

  • Customer-Support-Bot mit 1k+ Anfragen/h: bleibt beim 5-Min-Cache. Die hohe Trefferquote refresht den Cache laufend, Aufpreis lohnt nicht.
  • Internes Tool, das 5–20×/h benutzt wird: 1 h klar gewinn. Bei 10 Hits/h zahlst du den teureren Write einmal statt 12×.
  • Cron-Jobs mit konstantem System-Prompt alle 30 min: perfekt für 1-Stunden-Cache — ohne den scheitert der Cache komplett.
  • Long-Running-Agent-Loops (RAG-Pipelines, Multi-Step-Tasks mit Wartezeiten zwischen Steps): 1 h hilft, wenn Steps Minuten brauchen.

Praktisch heißt das: rechnet die Frequenz pro Stunde aus. Unter ~10 Hits/h → 1 h-Cache. Über ~10 Hits/h → 5-Min-Cache reicht. Bei der Anthropic-Console gibt es noch keinen Toggle — du musst das im Code-SDK aktivieren.

Quelle: Anthropic Engineering Blog

Stand: 13. Mai 2026. Preisstrukturen und Beta-Status können sich ändern — Anthropic-Pricing-Page vor Produktivem-Einsatz prüfen.

Wochen-Digest

News dieser Art direkt ins Postfach

Freitag 9:00, drei News mit Einordnung, ein Rechner, eine Take.

Kein Spam. 1-Klick-Abmeldung. Datenschutz bei Loops.so.

Einordnung von Harbinger Team. News-Tipp oder Korrektur? Schreib uns.