Anthropic verlängert Prompt-Caching auf 1 Stunde — wann sich der Aufpreis lohnt
Anthropic gibt Cache-TTL von 5 Minuten auf 1 Stunde frei — gegen Aufpreis. Wann das Sinn ergibt, und wann der 5-Minuten-Cache reicht.
Anthropic hat heute offiziell eine 1-Stunden-Cache-TTL für Prompt-Caching freigeschaltet. Vorher war jeder Cache-Eintrag nach 5 Minuten Idle-Zeit weg. Die neue Option läuft als Beta in der öffentlichen API und kommt in den nächsten 48 h auf AWS Bedrock und Google Vertex.
TL;DR
- 1-Stunden-Cache ist verfügbar via neuem
cache_control: { type: "ephemeral", ttl: "1h" }-Parameter. - Cache-Write-Aufpreis: 2× normaler Input-Preis (statt 1,25× bei 5-Minuten-Cache).
- Cache-Read-Preis unverändert bei 10 % Input.
- Limit: weiterhin 4 Cache-Breakpoints pro Request.
- Verfügbar für Opus 4.7, Sonnet 4.6, Haiku 4.5 — alle drei Modelle, alle drei Plattformen (API direkt, Bedrock, Vertex).
Was wurde geändert
Der bestehende cache_control-Block bekommt einen optionalen
ttl-Parameter, der "5m" (Default) oder "1h" akzeptiert. Der
Cache hält dann genau so lange ab letztem Hit — wird er innerhalb
der TTL erneut getroffen, läuft die Uhr von vorne.
Die Preis-Mechanik:
| TTL | Write-Multiplier | Read-Multiplier |
|---|---|---|
| 5 min | 1,25× | 0,10× |
| 1 h | 2,0× | 0,10× |
Sprich: für Sonnet 4.6 kostet ein 10k-Token Cache-Write mit 1 h TTL 6 $ statt 3,75 $. Read bleibt bei 30 Cent / 1M Tokens.
Was bedeutet das für DACH-Teams
Der 1-Stunden-Cache ist nicht für alle Apps die richtige Wahl. Faustregel:
- Customer-Support-Bot mit 1k+ Anfragen/h: bleibt beim 5-Min-Cache. Die hohe Trefferquote refresht den Cache laufend, Aufpreis lohnt nicht.
- Internes Tool, das 5–20×/h benutzt wird: 1 h klar gewinn. Bei 10 Hits/h zahlst du den teureren Write einmal statt 12×.
- Cron-Jobs mit konstantem System-Prompt alle 30 min: perfekt für 1-Stunden-Cache — ohne den scheitert der Cache komplett.
- Long-Running-Agent-Loops (RAG-Pipelines, Multi-Step-Tasks mit Wartezeiten zwischen Steps): 1 h hilft, wenn Steps Minuten brauchen.
Praktisch heißt das: rechnet die Frequenz pro Stunde aus. Unter ~10 Hits/h → 1 h-Cache. Über ~10 Hits/h → 5-Min-Cache reicht. Bei der Anthropic-Console gibt es noch keinen Toggle — du musst das im Code-SDK aktivieren.
Quelle: Anthropic Engineering Blog
Stand: 13. Mai 2026. Preisstrukturen und Beta-Status können sich ändern — Anthropic-Pricing-Page vor Produktivem-Einsatz prüfen.
Wochen-Digest
News dieser Art direkt ins Postfach
Freitag 9:00, drei News mit Einordnung, ein Rechner, eine Take.
Kein Spam. 1-Klick-Abmeldung. Datenschutz bei Loops.so.