Rechner
Databricks-DBU-Rechner: was dein Cluster wirklich kostet
DBU-Preis plus die Cloud-VM-Stunden, die Databricks dir nicht direkt zeigt. Workload + Edition + Cluster + Stunden — und dann eine Zahl.
Monatliche Kosten · Jobs Compute · Standard
2.300 €
5 Nodes · 730 h · auf AWS · jährlich 27.603 €
Use-Case
Workload
ETL, Batch-Pipelines, Scheduled Workloads
Edition
Cloud
DBU / Stunde
DBU-Kosten
Cloud-VM-Kosten
Total / Jahr
Vergleich
ohne Ops-Aufwand — Faustregel: + 1 SRE-FTE
Breakdown
Jobs vs All-Purpose — der häufigste Fehler
Wenn Teams zum ersten Mal Databricks aufsetzen, machen sie fast unweigerlich den gleichen Fehler: sie nutzen All-Purpose-Cluster für alles. Notebooks für Exploration, geplante Jobs für die Pipeline, interactive SQL für die BI-Crew — alles auf demselben warmen All-Purpose-Cluster, der 24/7 läuft. Das ist bequem. Es ist auch der schnellste Weg, eine 20.000-EUR-Rechnung zu produzieren.
All-Purpose-Compute kostet im Standard-Tier ungefähr 0,40 USD pro DBU. Jobs-Compute kostet im Standard-Tier 0,15 USD pro DBU. Das ist 2,7x günstiger — für dieselbe Workload, dieselbe VM, denselben Spark-Code. Der einzige Unterschied: Jobs-Cluster sind ephemer. Sie starten, wenn ein Workflow getriggert wird, laufen den Job, und werden danach terminiert.
Die Regel ist einfach: jeder geplante Workflow auf einen Jobs-Cluster, jede interaktive Session auf All-Purpose.Notebooks werden zu Jobs, sobald sie produktiv sind. Bei einem mittelgroßen ETL-Team kann diese Disziplin die Databricks-Rechnung halbieren — ohne dass irgendwer weniger arbeitet.
SQL Warehouse ist die dritte Workload, die oft falsch gewählt wird. Wenn deine BI-Tools (Tableau, PowerBI, Hex, Mode) auf Databricks SQL hängen, brauchst du einen SQL Warehouse — nicht einen All-Purpose-Cluster mit JDBC-Endpoint. SQL Warehouses sind speziell für Burst-Queries optimiert und können dynamisch skalieren. Sie sind auch oft billiger als All-Purpose, weil sie auto-suspend nach 5 Minuten haben.
Edition wählen — Standard, Premium, Enterprise
Die Edition ist eine Multiplikator-Entscheidung. Wenn du auf Premium wechselst, verdoppelst du den DBU-Preis. Wenn du auf Enterprise gehst, verdoppelst-bis-verdreifachst du ihn nochmal. Diese Wahl trifft jeden einzelnen Cent deiner Compute-Rechnung. Trotzdem ist sie meist unterüberlegt.
Standard: keine fine-grained Permissions, kein SCIM/SAML, keine Audit-Logs für Cluster-Events. Reicht für Single- Team-Setups ohne Compliance-Anforderungen. Sobald mehr als 5 User auf der Plattform arbeiten oder du Daten aus regulierten Quellen hast, ist Standard meist zu schwach.
Premium: ACLs, Workspace-IAM, SCIM/SAML, Audit-Logs auf Workspace-Level, Table ACLs, Cluster-Policies. Das ist der typische Mid-Market-Standard. Premium ist 1,5-2x teurer als Standard, aber praktisch jeder Customer mit mehr als einer Engineering-Team-Größe braucht es.
Enterprise: HIPAA, FedRAMP, IP-Whitelisting, Customer-Managed Keys, Private-Link, Audit-Logs auf jeder Ebene. Nur wenn dein Compliance-Officer dich dazu zwingt. Sonst Geld zum Fenster rauswerfen.
vs Standalone Spark
Eine wiederkehrende Frage: lohnt es sich, Spark einfach selbst auf eigenen VMs zu betreiben? Die Antwort ist ja-aber-praktisch-nein.
Technisch ist Spark Open Source. Du kannst es auf K8s, auf EMR, auf HDInsight, auf eigenen EC2-Instances betreiben. Wenn du den DBU-Markup abziehst, sparst du locker 40-60 % der Rechnung. Bei einem Cluster, der 5.000 EUR/Monat kostet, sind das 2.500 EUR Ersparnis. Klingt verlockend.
In der Realität bekommst du dafür: einen Vollzeit-Spark-Admin, der JVM-Heap-Tuning macht, Library-Konflikte debuggt, Workflow-Engines (Airflow + Argo + irgendwas) aufsetzt, MLflow selbst hostet, Lineage-Tracking selbst baut. Das ist mindestens ein halber FTE, oft ein voller. Ein FTE kostet in Deutschland brutto 80-120k. Pro Monat 10k EUR.
Die Faustregel: ab ungefähr 7-10k EUR/Monat Databricks- Rechnung rechnet sich Standalone-Spark — und auch nur dann, wenn dein Team Spark wirklich gut kann. Wer noch nie Spark in Production betrieben hat, sollte das nicht als ersten Schritt versuchen.
Was die Tabelle nicht zeigt
- Photon. Databricks' eigene C++-Engine ist auf Premium-Tier verfügbar und kann SQL-Queries 2-3x beschleunigen. Das senkt nicht den DBU-Preis pro Stunde, aber die Anzahl der Stunden, die du brauchst. Im Rechner ist Photon nicht modelliert.
- Auto-Scaling. Cluster können automatisch von 2 auf 20 Worker skalieren. Bei stark wechselnden Loads ist die Durchschnitts-Worker-Zahl deutlich niedriger als die maximale.
- Spot-Worker. Bei AWS und GCP kannst du Spot-VMs als Worker verwenden — bis zu 70 % Rabatt, dafür Restart-Risiko. Für Jobs-Cluster nahezu immer eine gute Idee.
- Storage. Delta-Tables, Unity Catalog, Bronze- Silver-Gold-Layers — alles kostet S3/Blob-Storage extra. Bei Petabyte-Pipelines kann das relevant werden.
- Serverless. Databricks Serverless SQL und Serverless Compute haben eigene, undurchsichtigere Preismodelle — meist günstiger als All-Purpose, aber weniger predictable.
Häufige Fragen
Was ist eine DBU genau?
DBU = Databricks Unit. Eine Abstraktionseinheit, die Databricks pro Stunde berechnet, abhängig von Cluster-Größe und Workload-Typ. Ein 8-vCPU/32-GiB-Worker zählt typisch als 1,5 DBU/Stunde. Multipliziert mit dem DBU-Preis (workload- und edition-abhängig) ergibt das den Databricks-Anteil. Dazu zahlst du DIE VMs SELBST nochmal an AWS/Azure/GCP — das ist der entscheidende Punkt, den viele Erstkunden übersehen.
Warum ist die Edition so teuer?
Standard hat Basic-Security, Premium hat fine-grained ACLs und Identity-Federation, Enterprise hat Audit-Logs, HIPAA und Compliance-Pakete. Für Hobby-Projekte reicht Standard. Sobald du regulierte Daten anfasst, Identity-Provider integrierst oder Audit-Trails brauchst — Premium ist meist die Mindest-Wahl. Enterprise nur für streng regulierte Branchen.
Jobs vs All-Purpose — was ist günstiger?
Jobs-Compute ist deutlich billiger pro DBU (typisch 0,15 USD vs 0,40 USD für All-Purpose), aber: Jobs-Cluster sind ephemer — sie starten für einen Workflow und sterben danach. All-Purpose-Cluster bleiben warm und unterstützen interaktive Notebooks. Faustregel: wenn die Arbeit getriggert per Workflow läuft, immer Jobs-Cluster nehmen. Wenn ein Data-Scientist die ganzen Tage darauf SQL und Python ad-hoc tippt, All-Purpose.
Habe ich Spot-Discount in der Rechnung?
Nein, das ist On-Demand. Spot- oder Reserved-Instances können die VM-Hälfte um 30-70 % drücken (Spot mehr Risiko, Reserved Commitment). Für Jobs-Cluster mit Restart-Toleranz sind Spot-Worker eine sehr gute Idee — bei All-Purpose ist Spot meist zu riskant, weil Notebooks abstürzen.
Wie genau ist der Snowflake-Vergleich?
Sehr grob. Wir schätzen Snowflake bei ähnlicher Workload typisch 5-15 % teurer als Databricks (großzügig gerundet). Die Wahrheit hängt von der Query-Charakteristik ab — Snowflake ist bei kurzen Burst-Queries sehr effizient (auto-suspend nach 60s), Databricks bei großem Throughput-Compute. Ein eigener Snowflake-Rechner kommt — bis dahin dient die Zahl nur als Größenordnung.
Lohnt sich Standalone-Spark auf eigenen VMs?
Auf dem Papier ja — du sparst den DBU-Markup, der gerne 1.5-3x die VM-Kosten erreicht. In der Praxis musst du dafür einen Spark-Admin (oder ein halbes SRE-Team) bezahlen, der Cluster verwaltet, Jobs migriert, JVM-tuned und mit Library-Konflikten kämpft. Faustregel: ab ~5-7k EUR/Monat Databricks-Rechnung wird DIY rechenbar — darunter ist Databricks immer billiger als ein FTE.
Verwandte Rechner
Weiter rechnen
Cloud-VM-Vergleich
Raw-Compute-Preise — die zweite Hälfte deiner Databricks-Rechnung.
Object-Storage-Rechner
Wo deine Delta-Tables liegen — und was sie kosten.
LLM-API-Preisrechner
Claude, GPT, Gemini, Mistral, Groq — pro Use-Case kalkuliert.
Egress-Rechner
Cross-Region-Replikation, Data-Export — wo Daten teuer raus kommen.
Newsletter
Jeden Freitag ein neuer Rechner oder Vergleich
Konkrete Zahlen, keine 1.500-Wörter-Texte.
Mit der Anmeldung willigst du ein, von AInfach Data (Daten- & KI-Beratungsagentur) Werbe-E-Mails und Preisupdates zu erhalten. Bestätigung per Double-Opt-in, Abmeldung jederzeit mit 1 Klick.
Auch alle Rechner ansehen.