Topic-Hub · Data Engineering

Data Engineering

Snowflake, Databricks, dbt, Iceberg, ClickHouse — Stacks, die skalieren.

Snowflake, Databricks, dbt, Iceberg, ClickHouse — Daten-Stacks, die wirklich skalieren.

46 ArtikelZuletzt aktualisiert 15. Mai 2026
Data·14. Mai 2026

Spark SQL vs Pandas: Wann nutzt du welches Tool?

Spark SQL oder Pandas? Klare Entscheidungsregeln nach Datengröße, Performance-Crossover, API-Vergleich und typischen Fehlern bei der Tool-Wahl.

Data·14. Mai 2026

Data Testing Frameworks: dbt, Great Expectations, Soda, pytest

Praktischer Vergleich der vier Data-Testing-Frameworks — dbt-Tests, Great Expectations, Soda Core, pytest — mit Code-Beispielen und Auswahlhilfe.

Data·14. Mai 2026

Databricks Autoloader: Der komplette Guide für Bronze-Ingestion

Wie Databricks Autoloader inkrementelle File-Ingestion aus S3, ADLS, GCS sauber löst — Schema-Evolution, Rescue-Data und die Pitfalls vor dem Produktiv-Go.

Data·14. Mai 2026

Reverse ETL erklärt: Warehouse-Daten zurück in Operativ-Tools

Reverse ETL synct kuratierte Warehouse-Daten zurück in CRMs, Marketing-Tools und Support-Systeme. Pattern, Tools-Vergleich und konkrete Implementierungs-Tipps.

Data·14. Mai 2026

dbt Cloud vs dbt Core 2026: Was die SaaS-Variante wirklich kostet

dbt Core ist Open Source, dbt Cloud kostet $100-1.000 pro Developer-Seat. Wann lohnt der Aufpreis, wann reicht Core mit eigenem Orchestrator?

Data·14. Mai 2026

Redshift vs BigQuery vs Snowflake 2026: Welches Warehouse fuer welche Daten-Realitaet

Drei Warehouses, drei Pricing-Modelle, drei Welten. Was kostet wirklich was bei 10 TB, 100 TB und 1 PB — und welcher Stack passt zu welchem Team.

Data·14. Mai 2026

Delta Live Tables vs Classic ETL: Welcher Ansatz passt zu deiner Pipeline?

DLT vs Classic ETL ehrlich verglichen — Expectations, Streaming, Debugging, Testing und Preise. Inkl. DLT-Code-Beispiel mit Expectations-Syntax.

Data·14. Mai 2026

dbt vs Spark SQL: Welches Tool für deinen Transformations-Layer?

dbt oder Spark SQL — direkter Vergleich aus der Praxis. Features, Kosten, Use-Cases. Mit Code-Beispielen für beide und ehrlichen Trade-offs für Analytics Engineers.

Data·14. Mai 2026

Databricks Workflows vs Apache Airflow: Was passt zu deinem Data-Stack?

Technischer Vergleich von Databricks Workflows und Apache Airflow für Daten-Pipeline-Orchestrierung — Kosten, Komplexität, Observability und wann welches Tool.

Data·14. Mai 2026

Databricks vs Snowflake vs BigQuery (2026): Vergleich für Data-Teams

Ehrlicher Vergleich von Databricks, Snowflake und BigQuery — Kosten, Features, Lock-in. Wann welche Plattform wirklich passt und wo der Vergleich kippt.

Data·14. Mai 2026

Databricks Unity Catalog Best Practices für Production

Namespace-Design, RBAC, Column-Masking, Lineage und Terraform-IaC: die Patterns, mit denen erfahrene Data Engineers Unity Catalog in Production rollouten.

Data·14. Mai 2026

Databricks Streaming Tables mit Delta Live Tables bauen

Schritt-für-Schritt-Anleitung für produktionsreife Streaming-Tabellen mit Delta Live Tables (DLT) auf Databricks — von der Ingestion über Quality-Checks bis zum Gold-Layer.

Data·14. Mai 2026

Databricks Streaming Tables: DLT vs Structured Streaming im Vergleich

DLT Streaming Tables oder klassisches Structured Streaming — wann lohnt sich welcher Ansatz auf Databricks? Inkl. DBU-Aufschlag, Watermarks und Praxis-Beispielen.

Data·13. Mai 2026

Databricks vs Snowflake vs BigQuery: Was 100 TB im Jahr 2026 wirklich kostet

DBU, Credits und Slots im direkten Vergleich auf einer 100-TB-Beispiel-Workload. Plus: wer für Streaming, ML und einfache Analytics am besten passt.

Data·9. Apr. 2026

Real-Time Feature Store Architektur für MLOps: Vergleich 2026

Wie du einen Real-Time-Feature-Store für produktives ML architektierst — Dual-Store-Patterns, Freshness-Trade-offs und Vergleich Databricks/Tecton, Feast, SageMaker, Vertex AI.

Data·4. Apr. 2026

Snowflake Kosten optimieren: 20-40 % Einsparung in 8 Schritten

Senke deine Snowflake-Rechnung um 20-40 % mit SQL-basierten Optimierungen für Warehouse-Sizing, Auto-Suspend, Query-Tuning und Storage-Management.

Data·3. Apr. 2026

Cloud-Datenbank auswählen: Decision-Framework für Architekten (2026)

Strukturiertes Decision-Framework für die Wahl der richtigen Cloud-Datenbank: relationale, NoSQL-, Time-Series-, Graph-, Vector- und OLAP-Datenbanken im Vergleich mit konkretem Use-Case-Mapping.

Data·3. Apr. 2026

CI/CD Pipelines für Databricks: Produktionsreifer Guide

Robuste CI/CD-Pipeline für Databricks-Projekte mit GitHub Actions, Asset Bundles und automatisierten Tests. Branching, Testing, Deployment in einem Setup.

Data·3. Apr. 2026

Databricks Cluster Policies für Cost Control: Praktischer Guide

Databricks Cluster Policies als Cost-Guardrails — Standardkonfigurationen erzwingen und Cloud-Bill-Überraschungen verhindern, ohne dein Team auszubremsen.

Data·3. Apr. 2026

Secrets-Management in Databricks: Best Practices und Patterns

Umfassender Guide zum Secrets-Management in Databricks-Workspaces — Secret Scopes, Azure Key Vault, Access-Control und die Anti-Patterns, die du vermeiden solltest.

Data·3. Apr. 2026

Databricks Asset Bundles (DABs): Der komplette Deployment-Guide

Kompletter Guide zu Databricks Asset Bundles — Ressourcen als Code definieren, testen und mit CI/CD über Umgebungen deployen. Multi-Environment und GitOps.

Data·3. Apr. 2026

Databricks Cost Optimization: 12 Strategien für eine niedrigere Cloud-Rechnung

Bewährte Strategien, um Databricks-Spend zu senken — Cluster-Konfiguration, Auto-Termination, Photon, Spot-Instances und DBU-Optimierung in einem Guide.

Data·3. Apr. 2026

Medallion Architecture in Databricks: Vollständiger Implementierungs-Guide

Schritt-für-Schritt-Guide für produktionsreife Medallion-Architekturen (Bronze/Silver/Gold) auf Databricks mit Delta Lake, PySpark und Unity Catalog.

Data·3. Apr. 2026

Databricks Notebooks vs IDE: Den richtigen Workflow wählen

Praktischer Vergleich Databricks-Notebooks vs IDE-Workflows (VS Code, PyCharm) — wann welcher Ansatz passt und wie du beide via Databricks Connect integrierst.

Data·3. Apr. 2026

Delta Sharing erklärt: Cross-Organisation-Datenaustausch ohne Datenkopien

Deep-Dive in Delta Sharing — das offene Protokoll für Live-Delta-Lake-Daten-Sharing über Organisationen, Clouds und Plattformen hinweg, ohne Daten zu duplizieren.

Data·3. Apr. 2026

External Tables in Databricks: Patterns und Pitfalls

Was Data Engineers über External Tables in Databricks wissen müssen — wann statt Managed Tables, Storage Credentials, Partition-Sync und die kritischen Pitfalls.

Data·3. Apr. 2026

Monitoring und Alerting für Databricks-Workloads: Kompletter Guide

Produktionsreifes Monitoring und Alerting für Databricks-Jobs, -Cluster und -Pipelines. Native Tools, Spark-Metriken, Ganglia und externe Observability-Integration.

Data·3. Apr. 2026

Databricks Photon Engine: Wann nutzen — und wann nicht?

Photon ist die native vektorisierte Query-Engine von Databricks. Welche Workloads profitieren wirklich, welche nicht — mit Benchmarks und Entscheidungs-Framework.

Data·3. Apr. 2026

Delta-Table-Maintenance: OPTIMIZE, VACUUM und Z-ORDER erklärt

Praxis-Guide, um Delta-Lake-Tabellen gesund zu halten — wann OPTIMIZE, VACUUM und Z-ORDER laufen lassen, welche Pitfalls vermeiden und wie automatisieren.

Data·3. Apr. 2026

Cloud-Data-Platform-Kosten: Praxis-Guide für FinOps (2026)

Konkrete Techniken gegen explodierende Daten-Plattform-Kosten: Compute-Optimierung, Storage-Tiering, Query-Effizienz und FinOps-Praktiken für Databricks, BigQuery, Snowflake und Redshift.

Data·3. Apr. 2026

Infrastructure as Code für Data-Plattformen: Praxis-Guide

IaC-Prinzipien für moderne Data-Plattformen — Terraform-Module, CI/CD für Schema-Änderungen und GitOps-Workflows für Data-Platform-Operations.

Data·3. Apr. 2026

Databricks SQL Warehouse: Sizing- und Cost-Optimization-Guide

Alles, was du über Databricks SQL Warehouses wissen musst — Serverless vs Classic, T-Shirt-Sizing, Auto-Stop, Query-Routing und konkrete Cost-Optimization-Taktiken.

Data·3. Apr. 2026

Delta-Table-Optimization-Guide: OPTIMIZE, ZORDER, Liquid Clustering

Deep-Dive in Delta-Lake-Optimierung — OPTIMIZE, ZORDER, Liquid Clustering, File-Compaction, VACUUM und Partitions-Strategien für maximale Query-Performance.

Data·3. Apr. 2026

Spark Performance Tuning: Der Praxis-Guide für Data Engineers (2026)

Apache Spark Performance Tuning auf Databricks — von Memory-Management über Shuffle-Optimierung, Adaptive Query Execution und Skew-Handling bis Cluster-Sizing.

Data·3. Apr. 2026

Slowly Changing Dimensions (SCD) erklärt: Typ 1 bis 4 mit SQL-Beispielen

SCD Typ 1 bis 4 verständlich erklärt mit praktischen SQL-Beispielen, Trade-offs bei der dimensionalen Modellierung und dbt-Snapshot-Mustern für dein Warehouse.

Data·3. Apr. 2026

Data Contracts: Schema-Verträge zwischen Daten-Teams richtig nutzen

Praxis-Guide zu Data Contracts: Schema-Vereinbarungen zwischen Producer und Consumer, mit YAML-Beispielen, Schema Registry und dbt-Enforcement.

Data·1. Apr. 2026

Data Quality Testing: Praktischer Guide für Data Engineers

Wie du Data-Quality-Tests über Ingestion-, Transformations- und Aggregations-Layer einführst — mit Code-Beispielen, Tool-Vergleich und Quality-Gate-Pattern.

Data·31. März 2026

Databricks Legacy Sunset: DBFS, Hive Metastore & ihre Nachfolger

Seit Dezember 2025 verlieren neue Databricks-Accounts Zugriff auf DBFS-Root, Mounts und Hive Metastore. Praxis-Migrations-Guide mit Code für jedes Legacy-Feature.

Data·31. März 2026

SQL Window Functions Tutorial: Rank, Aggregate, Vergleich

Lerne SQL Window Functions mit ausführbaren Beispielen — Rankings, laufende Summen, LAG/LEAD und typische Fallen in PostgreSQL, Spark SQL und BigQuery.

Data·28. März 2026

ETL vs ELT: Welche Pipeline passt zu deinem Data-Stack?

ETL transformiert vor dem Load, ELT lädt zuerst und transformiert im Warehouse. Wann welcher Ansatz Sinn macht, Kosten-Trade-offs und Migrations-Fehler.

Data·26. März 2026

Data Governance Framework: Praktischer Guide für Data-Teams

Hands-on-Guide zum Aufbau eines Data-Governance-Frameworks, das in der Praxis funktioniert — Ownership, Policies, Datenqualität, Tooling ohne Corporate-Speech.

Data·24. März 2026

Data Lakehouse Architektur erklärt: Wann lohnt sich der Umstieg?

Wie Data Lakehouse Architektur funktioniert, wann sie gegenüber Warehouse oder Lake gewinnt — und die häufigsten Pitfalls, an denen Data-Engineering-Teams scheitern.

Data·24. März 2026

Was ist dbt? Der vollständige Guide für Data Engineers

Was dbt ist, wie es Daten im Warehouse transformiert, dbt Core vs Cloud im Vergleich, plus wann dbt nicht die richtige Wahl ist.

Data·21. März 2026

Data Catalog: Tools, Trade-offs & wann du wirklich einen brauchst

Klare Definition was ein Data Catalog ist, ehrlicher Vergleich von DataHub, Atlan, Alation und OpenMetadata plus Build-vs-Buy-Framework für Daten-Teams.

Data·14. März 2026

Self-Service Analytics: Warum die meisten Teams es falsch angehen

Self-Service Analytics scheitert öfter, als es funktioniert — meistens aus denselben Gründen. Voraussetzungen, Failure Modes und eine 4-Phasen-Build-Sequenz, die wirklich trägt.