Topic-Hub · Data Engineering

Data Engineering

Snowflake, Databricks, dbt, Iceberg, ClickHouse — Stacks, die skalieren.

Snowflake, Databricks, dbt, Iceberg, ClickHouse — Daten-Stacks, die wirklich skalieren.

46 ArtikelZuletzt aktualisiert 15. Mai 2026

Data·14. Mai 2026·Featured

Unity Catalog Data Governance: Security, Lineage und Audit

Unity Catalog Governance in der Praxis — Row-Level-Security, Column-Masking, Tags, automatische Lineage und Audit-Logs für DSGVO-konforme Datenplattformen.

Weiterlesen →

Data·14. Mai 2026

Spark SQL vs Pandas: Wann nutzt du welches Tool?

Spark SQL oder Pandas? Klare Entscheidungsregeln nach Datengröße, Performance-Crossover, API-Vergleich und typischen Fehlern bei der Tool-Wahl.

Data·14. Mai 2026

Data Testing Frameworks: dbt, Great Expectations, Soda, pytest

Praktischer Vergleich der vier Data-Testing-Frameworks — dbt-Tests, Great Expectations, Soda Core, pytest — mit Code-Beispielen und Auswahlhilfe.

Data·14. Mai 2026

Databricks Autoloader: Der komplette Guide für Bronze-Ingestion

Wie Databricks Autoloader inkrementelle File-Ingestion aus S3, ADLS, GCS sauber löst — Schema-Evolution, Rescue-Data und die Pitfalls vor dem Produktiv-Go.

Data·14. Mai 2026

Reverse ETL erklärt: Warehouse-Daten zurück in Operativ-Tools

Reverse ETL synct kuratierte Warehouse-Daten zurück in CRMs, Marketing-Tools und Support-Systeme. Pattern, Tools-Vergleich und konkrete Implementierungs-Tipps.

Data·14. Mai 2026

dbt Cloud vs dbt Core 2026: Was die SaaS-Variante wirklich kostet

dbt Core ist Open Source, dbt Cloud kostet $100-1.000 pro Developer-Seat. Wann lohnt der Aufpreis, wann reicht Core mit eigenem Orchestrator?

Data·14. Mai 2026

Redshift vs BigQuery vs Snowflake 2026: Welches Warehouse fuer welche Daten-Realitaet

Drei Warehouses, drei Pricing-Modelle, drei Welten. Was kostet wirklich was bei 10 TB, 100 TB und 1 PB — und welcher Stack passt zu welchem Team.

Data·14. Mai 2026

Delta Live Tables vs Classic ETL: Welcher Ansatz passt zu deiner Pipeline?

DLT vs Classic ETL ehrlich verglichen — Expectations, Streaming, Debugging, Testing und Preise. Inkl. DLT-Code-Beispiel mit Expectations-Syntax.

Data·14. Mai 2026

dbt vs Spark SQL: Welches Tool für deinen Transformations-Layer?

dbt oder Spark SQL — direkter Vergleich aus der Praxis. Features, Kosten, Use-Cases. Mit Code-Beispielen für beide und ehrlichen Trade-offs für Analytics Engineers.

Data·14. Mai 2026

Databricks Workflows vs Apache Airflow: Was passt zu deinem Data-Stack?

Technischer Vergleich von Databricks Workflows und Apache Airflow für Daten-Pipeline-Orchestrierung — Kosten, Komplexität, Observability und wann welches Tool.

Data·14. Mai 2026

Databricks vs Snowflake vs BigQuery (2026): Vergleich für Data-Teams

Ehrlicher Vergleich von Databricks, Snowflake und BigQuery — Kosten, Features, Lock-in. Wann welche Plattform wirklich passt und wo der Vergleich kippt.

Data·14. Mai 2026

Databricks Unity Catalog Best Practices für Production

Namespace-Design, RBAC, Column-Masking, Lineage und Terraform-IaC: die Patterns, mit denen erfahrene Data Engineers Unity Catalog in Production rollouten.

Data·14. Mai 2026

Databricks Streaming Tables mit Delta Live Tables bauen

Schritt-für-Schritt-Anleitung für produktionsreife Streaming-Tabellen mit Delta Live Tables (DLT) auf Databricks — von der Ingestion über Quality-Checks bis zum Gold-Layer.

Data·14. Mai 2026

Databricks Streaming Tables: DLT vs Structured Streaming im Vergleich

DLT Streaming Tables oder klassisches Structured Streaming — wann lohnt sich welcher Ansatz auf Databricks? Inkl. DBU-Aufschlag, Watermarks und Praxis-Beispielen.

Data·13. Mai 2026

Databricks vs Snowflake vs BigQuery: Was 100 TB im Jahr 2026 wirklich kostet

DBU, Credits und Slots im direkten Vergleich auf einer 100-TB-Beispiel-Workload. Plus: wer für Streaming, ML und einfache Analytics am besten passt.

Data·9. Apr. 2026

Real-Time Feature Store Architektur für MLOps: Vergleich 2026

Wie du einen Real-Time-Feature-Store für produktives ML architektierst — Dual-Store-Patterns, Freshness-Trade-offs und Vergleich Databricks/Tecton, Feast, SageMaker, Vertex AI.

Data·4. Apr. 2026

Snowflake Kosten optimieren: 20-40 % Einsparung in 8 Schritten

Senke deine Snowflake-Rechnung um 20-40 % mit SQL-basierten Optimierungen für Warehouse-Sizing, Auto-Suspend, Query-Tuning und Storage-Management.

Data Engineering

Unity Catalog Data Governance: Security, Lineage und Audit

Spark SQL vs Pandas: Wann nutzt du welches Tool?

Data Testing Frameworks: dbt, Great Expectations, Soda, pytest

Databricks Autoloader: Der komplette Guide für Bronze-Ingestion

Reverse ETL erklärt: Warehouse-Daten zurück in Operativ-Tools

dbt Cloud vs dbt Core 2026: Was die SaaS-Variante wirklich kostet

Redshift vs BigQuery vs Snowflake 2026: Welches Warehouse fuer welche Daten-Realitaet

Delta Live Tables vs Classic ETL: Welcher Ansatz passt zu deiner Pipeline?

dbt vs Spark SQL: Welches Tool für deinen Transformations-Layer?

Databricks Workflows vs Apache Airflow: Was passt zu deinem Data-Stack?

Databricks vs Snowflake vs BigQuery (2026): Vergleich für Data-Teams

Databricks Unity Catalog Best Practices für Production

Databricks Streaming Tables mit Delta Live Tables bauen

Databricks Streaming Tables: DLT vs Structured Streaming im Vergleich

Databricks vs Snowflake vs BigQuery: Was 100 TB im Jahr 2026 wirklich kostet

Real-Time Feature Store Architektur für MLOps: Vergleich 2026

Snowflake Kosten optimieren: 20-40 % Einsparung in 8 Schritten

Cloud-Datenbank auswählen: Decision-Framework für Architekten (2026)

CI/CD Pipelines für Databricks: Produktionsreifer Guide

Databricks Cluster Policies für Cost Control: Praktischer Guide

Secrets-Management in Databricks: Best Practices und Patterns

Databricks Asset Bundles (DABs): Der komplette Deployment-Guide

Databricks Cost Optimization: 12 Strategien für eine niedrigere Cloud-Rechnung

Medallion Architecture in Databricks: Vollständiger Implementierungs-Guide

Databricks Notebooks vs IDE: Den richtigen Workflow wählen

Delta Sharing erklärt: Cross-Organisation-Datenaustausch ohne Datenkopien

External Tables in Databricks: Patterns und Pitfalls

Monitoring und Alerting für Databricks-Workloads: Kompletter Guide

Databricks Photon Engine: Wann nutzen — und wann nicht?

Delta-Table-Maintenance: OPTIMIZE, VACUUM und Z-ORDER erklärt

Cloud-Data-Platform-Kosten: Praxis-Guide für FinOps (2026)

Infrastructure as Code für Data-Plattformen: Praxis-Guide

Databricks SQL Warehouse: Sizing- und Cost-Optimization-Guide

Delta-Table-Optimization-Guide: OPTIMIZE, ZORDER, Liquid Clustering

Spark Performance Tuning: Der Praxis-Guide für Data Engineers (2026)

Slowly Changing Dimensions (SCD) erklärt: Typ 1 bis 4 mit SQL-Beispielen

Data Contracts: Schema-Verträge zwischen Daten-Teams richtig nutzen

Data Quality Testing: Praktischer Guide für Data Engineers

Databricks Legacy Sunset: DBFS, Hive Metastore & ihre Nachfolger

SQL Window Functions Tutorial: Rank, Aggregate, Vergleich

ETL vs ELT: Welche Pipeline passt zu deinem Data-Stack?

Data Governance Framework: Praktischer Guide für Data-Teams

Data Lakehouse Architektur erklärt: Wann lohnt sich der Umstieg?

Was ist dbt? Der vollständige Guide für Data Engineers

Data Catalog: Tools, Trade-offs & wann du wirklich einen brauchst

Self-Service Analytics: Warum die meisten Teams es falsch angehen