Cloud allgemein

Data Catalog Federation: Mehrere Catalogs über AWS, Azure und GCP verbinden

Drei Clouds, zwei On-Prem-Systeme, ein Catalog-Chaos. Federation-Pattern, Iceberg REST API und Entscheidungsframework — ohne Rip-and-Replace-Migration.

Harbinger Team6. April 20265 Min. LesezeitAktualisiert 14.5.2026
  • data-catalog
  • federation
  • iceberg
  • unity-catalog
  • apache-polaris
  • gravitino
  • multi-cloud
  • metadata
Inhaltsverzeichnis17 Abschnitte

Jedes Plattform-Team läuft irgendwann gegen dieselbe Wand: Deine Daten liegen in drei Clouds, zwei On-Prem-Systemen und der API eines SaaS-Anbieters — und niemand findet etwas. Du hast Catalogs, im Plural. Was du nicht hast: einen Catalog.

Data Catalog Federation ist das Architektur-Pattern, das dieses Problem löst, ohne dass du alles migrieren musst. Statt aller Metadaten in ein Tool zu konsolidieren, verbindest du mehrere Catalogs über gemeinsame Protokolle.

TL;DR

  • Single-Catalog-Strategien scheitern bei Acquisitions, Multi-Cloud und Domain-Autonomie.
  • Drei Federation-Patterns: Hub-and-Spoke (zentral), Protokoll-basiert (Iceberg REST), Metadata Mesh (dezentral).
  • Iceberg REST Catalog API ist der Standard, der Cross-Catalog-Interop möglich macht.
  • Die Wahl ist organisatorisch, nicht technisch.

Warum Single-Catalog scheitert

  • Acquisitions: Über Nacht neue Stacks.
  • Multi-Cloud: Jeder Provider hat seinen eigenen Catalog (AWS Glue, Google Dataplex, Azure Purview).
  • Domain-Autonomie: Auch ohne Data Mesh wählen Teams unterschiedliche Tools.

Erzwungene Konsolidierung wird ein Metadaten-Migrationsprojekt — genauso schmerzhaft wie eine Datenmigration.

Die drei Federation-Patterns

Pattern 1: Hub-and-Spoke

Ein Catalog ist die Primary-Discovery-Schicht und zieht Metadaten aus Satellite-Catalogs. Nutzer:innen suchen an einer Stelle, Governance läuft zentral.

Beispiele: Databricks Unity Catalog mit Lakehouse Federation, Atlan, Collibra.

Passt für: Organisationen mit dominanter Analytics-Plattform, die zentrale Governance wollen.

Pattern 2: Protokoll-basiert (Iceberg REST API)

Statt Aggregator implementieren Catalogs ein gemeinsames Protokoll — die Iceberg REST Catalog API. Jede Engine, die das Protokoll spricht, kann Tables aus jedem kompatiblen Catalog lesen.

Beispiele: Apache Polaris, Apache Gravitino, Unity Catalog (als Iceberg REST Endpoint), Project Nessie.

Passt für: Organisationen mit Commitment auf offene Tableformate, die Engine-Agnostik wollen.

Pattern 3: Metadata Mesh

Jede Domain besitzt ihren Catalog und veröffentlicht Metadaten-Contracts in einer Shared Registry. Kein zentraler Catalog, nur ein Lightweight-Discovery-Service.

Passt für: Große Enterprises mit starker Domain-Ownership, wo zentrale Governance politisch nicht durchsetzbar ist.

Catalog-Vergleich

CapabilityUnity CatalogAWS GlueDataplex (GCP)PurviewPolarisGravitino
Iceberg REST APINativNativNativ
Cross-Cloud-FederationLakehouse FedAWS onlyGCP onlyAzure + FabricCloud-agnostischCloud-agnostisch
Foreign-Catalog-SupportGlue, HMS, SnowflakeBigQuery + GCSAzure-QuellenMehrere Backends
Open SourceTeilweiseApache 2.0Apache 2.0
GovernanceRBAC, LineageIAM-basiertPolicy TagsKlassifikationenBasic RBACBasic
Multi-Format (Delta + Iceberg)JaDelta onlyIceberg onlyMulti-Format

Wann welches Pattern?

Hub-and-Spoke wenn:

  • Du eine dominante Analytics-Plattform hast (70 %+ der Queries über Databricks oder Snowflake).
  • Zentrale Governance Pflicht ist (regulierte Branchen, BaFin, SOX).
  • Du Vendor-Coupling am Metadata-Layer akzeptierst.

Protokoll-basiert wenn:

  • Open Table Formats (Iceberg, Delta) gesetzt sind.
  • Mehrere Compute-Engines (Spark, Flink, Trino, Dremio) dieselben Tables sehen müssen.
  • Du Self-Host kannst.

Metadata Mesh wenn:

  • 100+ Datendomains, mehrere Geschäftseinheiten.
  • Domain-Autonomie nicht verhandelbar ist.
  • Reife Data-Engineering-Teams pro Domain vorhanden sind.

Iceberg REST Catalog: Der Standard, der alles verändert hat

Vorher sprach jeder Catalog seine eigene Sprache. Jetzt implementieren immer mehr Catalogs dieselbe HTTP-API.

Apache Polaris — Ursprünglich von Snowflake open-sourced, jetzt Apache-Projekt. Reiner Iceberg-Catalog. Kein Governance-Layer.

Apache Gravitino — Apache TLP seit Mai 2025. Metadaten-Federation-Layer, der Iceberg, Hive und mehrere Formate unterstützt. Meta-Catalog für mehrere Backends.

Databricks Unity Catalog — Managed Option. Exposed Iceberg REST Endpoint, externe Engines (Trino, Flink, Dremio) können UC-Tables via Standard Iceberg REST lesen. Gleichzeitig liest UC via Lakehouse Federation von Glue, HMS, Snowflake Horizon.

Project Nessie — Git-ähnliches Branching und Versioning für Catalog-Operationen.

Was die REST API nicht standardisiert

Access Control, Lineage, Data-Quality-Metriken, Business-Glossary. Protokoll-Federation allein löst Governance nicht — du brauchst eine Policy-Schicht darüber.

Governance in Federated Welt

LayerMechanismusBeispiel
Cloud IAMNative IdentityAWS IAM Roles, Azure AD, GCP IAM
Catalog RBACTable/Schema-PermissionsUC Grants, Polaris RBAC
Column-LevelMasking, FilteringDynamic Views, Purview Sensitivity Labels
Row-LevelPredicate-FilteringUC Row Filters, BigQuery Row Policies
Cross-CatalogPolicy-EngineImmuta, Privacera, Open Policy Agent

Im federated Modell reicht ein einzelner Catalog-RBAC nicht. Du brauchst eine Policy-Engine darüber oder Policies, die über Catalogs hinweg repliziert werden — eigenes Wartungsproblem.

Lineage über Catalogs hinweg

  • OpenLineage — Der entstehende Standard. Spark, Airflow, dbt, Flink emittieren Events, ein zentraler Collector (Marquez, Atlan, DataHub) baut den Graph.
  • Manuelle Registrierung — Skaliert nicht, aber ehrlich.
  • Vendor-Lösungen — Atlan, Collibra, Alation. Pricing ab ~60k$/Jahr Enterprise.

Häufige Fallen

  1. Federation als Tech-Problem behandeln. Es ist ein organisatorisches Pattern. Ohne Naming-Conventions, Ownership und Metadaten-Standards rettet dich keine Technologie.
  2. Zu früh federieren. Eine Cloud, eine Analytics-Plattform → du brauchst einen Catalog, keine Federation.
  3. Staleness ignorieren. Federated Metadaten sind eventually consistent. SLA definieren, monitoren.
  4. Iceberg REST = Governance. Falsch. Es ist ein Table-Management-Protokoll, kein Governance-Framework.
  5. Open-Source ohne Ops-Reife wählen. Polaris und Gravitino sind mächtig, brauchen aber Self-Hosting.

FAQ

Brauchen wir Federation, wenn alles in einer Cloud läuft? Nein. Ein Catalog reicht. Federation lohnt sich, wenn mehrere Catalogs schon nebeneinander existieren.

Reicht Unity Catalog allein für Multi-Cloud? Über Lakehouse Federation liest UC aus Glue und BigQuery, aber dein Governance-Plane sitzt bei Databricks. Wenn das ok ist, ja.

Open Source oder managed? Wenn du Kubernetes-Erfahrung und Kapazität hast: Polaris/Gravitino. Wenn nicht: managed (UC, Glue, Purview).

Wie groß ist die DACH-Relevanz von Iceberg REST? Hoch. Wer DSGVO-getrieben on-prem oder in eu-central-1 Iceberg fährt, profitiert von Engine-Wahl ohne Vendor-Coupling.

Stand: 14. Mai 2026.

H

Geschrieben von

Harbinger Team

Cloud-, Data- und AI-Engineer in DACH. Schreibt seit 2018 über infrastruktur­kritische Tech-Entscheidungen — keine Marketing- Folien, sondern echte Trade-offs aus Production-Workloads.

Hat dir das geholfen?

Jede Woche ein neuer Artikel über DACH-Cloud, Data und AI — direkt in dein Postfach. Kein Spam, kein Marketing-Sprech.

Kein Spam. 1-Klick-Abmeldung. Datenschutz bei Loops.so.