Inhaltsverzeichnis23 Abschnitte
- Was Data Governance wirklich heißt
- Was Governance NICHT ist
- Die vier Säulen eines Data-Governance-Frameworks
- 1. Data Ownership & Stewardship
- 2. Policies & Standards
- 3. Datenqualität
- 4. Metadaten & Data Catalog
- Roadmap: Von Null zu Governed
- Phase 1: Foundation (Woche 1–4)
- Phase 2: Policies & Quality (Woche 5–8)
- Phase 3: Scale & Automate (Woche 9–16)
- Phase 4: Continuous Improvement (laufend)
- Governance-KPIs: Was wirklich zählt
- Wenn Governance scheitert: häufige Anti-Patterns
- Governance für kleine Teams
- FAQ
- Was ist der Unterschied zwischen Data Governance und Data Management?
- Wer sollte für Data Governance verantwortlich sein?
- Wie passt DSGVO in ein Governance-Framework?
- Brauche ich einen Data Catalog?
- Wie lange dauert ein realistisches Governance-Setup?
- Morgen starten
- Weiterlesen
TL;DR: Data Governance läuft auf drei Fragen pro Datensatz hinaus: Wer besitzt sie? Welche Regeln gelten? Wie setzen wir die durch? Alles andere ist Implementierungsdetail. Starte mit 10 Tabellen, nicht mit 1.000 — und kauf erst Tools, wenn Ownership und Policies stehen.
Du kennst die Szene: Ein Stakeholder fragt, woher eine Zahl kommt, und drei Leute geben drei verschiedene Antworten. Oder jemand entdeckt, dass die "customer"-Tabelle im Warehouse vier verschiedene Definitionen über Teams hinweg hat. Oder eine DSGVO-Anfrage kommt rein, und niemand weiß, welche Systeme PII halten.
Ein Data Governance Framework löst diese Probleme — nicht mit Bürokratie, sondern mit klarer Eigentümerschaft, geteilten Definitionen und Tooling, das die Regeln durchsetzt. Dieser Guide zeigt dir, wie du eines baust, das wirklich funktioniert.
Was Data Governance wirklich heißt
Data Governance ist das System aus Entscheidungsrechten, Policies und Prozessen, das festlegt, wie Daten in einer Organisation gesammelt, gespeichert, genutzt und stillgelegt werden. Streich das Beratungs-Vokabular, und es läuft auf drei Fragen hinaus:
- Wer besitzt diese Daten? (Accountability)
- Was sind die Regeln? (Policies)
- Wie setzen wir sie durch? (Prozesse + Tooling)
Wenn du diese drei Fragen für jeden Datensatz deiner Organisation beantworten kannst, hast du Governance. Alles andere ist Umsetzungsdetail.
Was Governance NICHT ist
| Missverständnis | Realität |
|---|---|
| Ein einmaliges Projekt | Ein laufendes Betriebsmodell |
| IT-Aufgabe | Cross-funktionale Disziplin |
| Ein Tool, das du kaufst | Ein System aus Menschen, Prozessen, Tools |
| Daten wegsperren | Sicheren, schnellen Zugriff ermöglichen |
| 200-Seiten-Policy-Dokumente, die keiner liest | Schlanke, durchsetzbare Regeln in Workflows |
Die vier Säulen eines Data-Governance-Frameworks
Jedes wirksame Governance-Framework ruht auf vier Säulen. Lass eine weg, und das Ganze wackelt.
1. Data Ownership & Stewardship
Für jeden Datensatz muss jemand verantwortlich sein. Nicht "das Data-Team" — eine konkrete Person.
Rollen, die du wirklich brauchst:
| Rolle | Verantwortung | Wer das übernimmt |
|---|---|---|
| Data Owner | Business-Accountability — definiert, was die Daten bedeuten, wer Zugriff hat, Retention-Regeln | Domain-/Business-Lead (z. B. Head of Finance besitzt Finanzdaten) |
| Data Steward | Tagesgeschäft — pflegt Metadaten, löst Qualitätsprobleme, setzt Policies durch | Senior Analyst oder Engineer innerhalb der Domain |
| Data Engineer | Technische Umsetzung — Pipelines, Access-Controls, Quality-Checks | Engineering-Team |
| Data Governance Lead | Querschnittskoordination — löst Konflikte, hält Standards | Eigene Rolle oder Teil eines Data-Platform-Teams |
Der zentrale Insight: Ownership liegt im Business, nicht in der IT. Das Finance-Team besitzt Finanzdaten. Das Marketing-Team besitzt Kampagnendaten. Engineers bauen die Infrastruktur; sie definieren nicht, was "active customer" bedeutet.
2. Policies & Standards
Policies sind die Regeln. Standards sind, wie du sie umsetzt. Beide kurz und durchsetzbar halten.
Kern-Policies, die jedes Team braucht:
- Data Classification Policy — Welche Sensitivitätsstufen es gibt (public, internal, confidential, restricted) und wie sie behandelt werden
- Access Policy — Wer was sehen darf, wie Zugriff beantragt und widerrufen wird
- Retention Policy — Wie lange Daten gehalten werden und wann sie gelöscht werden — in der DACH-Region oft direkt an die DSGVO-Aufbewahrungsgrenzen gekoppelt
- Quality Policy — Welche Qualitäts-Schwellen es gibt und was passiert, wenn sie verletzt werden
- Lineage Policy — Wie Upstream-/Downstream-Abhängigkeiten getrackt werden
Hier ein praktisches Beispiel eines Data-Classification-Standards, umgesetzt als SQL-Comment-Convention:
-- PostgreSQL: Column-level classification using COMMENT
COMMENT ON COLUMN customers.email IS 'classification:confidential;pii:true;retention:3y';
COMMENT ON COLUMN customers.country IS 'classification:internal;pii:false;retention:indefinite';
COMMENT ON COLUMN orders.total_amount IS 'classification:internal;pii:false;retention:7y';
Schlank, aber maschinenlesbar. Ein Downstream-Scanner kann diese Comments parsen und Access-Regeln automatisch durchsetzen.
3. Datenqualität
Governance ohne Quality-Enforcement ist nur Dokumentation. Du brauchst automatisierte Checks, die in deinen Pipelines laufen.
Die fünf Dimensionen der Datenqualität:
| Dimension | Frage | Beispiel-Check |
|---|---|---|
| Vollständigkeit | Sind alle erwarteten Daten da? | NOT-NULL-Rate > 99 % bei Pflichtfeldern |
| Genauigkeit | Spiegeln die Daten die Realität? | Umsatz-Summen stimmen mit Quellsystem auf 0,1 % überein |
| Konsistenz | Stimmen verwandte Datasets überein? | Customer-Count im CRM = Customer-Count im Warehouse |
| Aktualität | Sind die Daten frisch genug? | Pipeline läuft innerhalb von 2 Stunden nach Source-Update |
| Eindeutigkeit | Gibt es Duplikate? | Primary-Key-Uniqueness = 100 % |
So setzt du Basis-Quality-Checks in einem dbt-Projekt um:
# dbt schema.yml — Data quality tests
version: 2
models:
- name: dim_customers
description: "Customer dimension — owned by Sales team"
meta:
owner: "sales-team"
classification: "confidential"
contains_pii: true
columns:
- name: customer_id
description: "Unique customer identifier"
tests:
- unique
- not_null
- name: email
description: "Customer email — PII, confidential"
tests:
- not_null
- unique
- name: created_at
tests:
- not_null
- dbt_utils.expression_is_true:
expression: "created_at <= current_timestamp"
- name: country_code
tests:
- not_null
- accepted_values:
values: ['DE', 'US', 'GB', 'FR', 'NL', 'AT', 'CH']
config:
severity: warn
Das bettet Governance direkt in deinen Transformations-Layer ein. Schlägt ein Test fehl, stoppt die Pipeline — keine schlechten Daten erreichen Dashboards.
4. Metadaten & Data Catalog
Ein Data Catalog ist die zentrale Sicht, in der Menschen Daten finden, verstehen und ihnen vertrauen. Ohne Catalog lebt Governance in Wikis, die keiner liest.
Was dein Katalog erfassen muss:
- Technische Metadaten — Tabellennamen, Spaltentypen, Row Counts, Aktualität
- Business-Metadaten — Klartext-Beschreibungen, Ownership, Klassifizierung
- Lineage-Metadaten — woher die Daten kommen, welche Transformationen sie durchlaufen, was von ihnen abhängt
- Usage-Metadaten — wer fragt es ab, wie oft, wofür
Beliebte Catalog-Tools:
| Tool | Am besten für | Pricing |
|---|---|---|
| DataHub (LinkedIn OSS) | Teams, die self-hosting wollen | Free (Open Source) |
| OpenMetadata | Moderner, API-first-Ansatz | Free (Open Source) |
| Atlan | Enterprise-Teams mit Managed-Lösung | Per-Seat, ab ca. 30k $/Jahr [PRICING-CHECK] |
| Alation | Großunternehmen mit komplexer Governance | Enterprise-Pricing [PRICING-CHECK] |
| dbt Docs + dbt Explorer | Teams, die schon dbt nutzen | Free (OSS) / in dbt Cloud enthalten |
Roadmap: Von Null zu Governed
Versuch nicht, alles auf einmal zu governen. Klein anfangen, Wert beweisen, expandieren.
Phase 1: Foundation (Woche 1–4)
Ziel: Ownership für die wichtigsten Datasets etablieren.
- Die Top-10-meistgenutzten Datasets identifizieren (Query-Logs checken)
- Pro Dataset Owner und Steward zuweisen
- Einen-Absatz-Beschreibungen pro Dataset schreiben
- Bekannte Qualitätsprobleme dokumentieren — noch nicht fixen, nur anerkennen
Deliverable: Ein einfaches Spreadsheet oder Catalog-Einträge für 10 Datasets mit Ownern.
Phase 2: Policies & Quality (Woche 5–8)
Ziel: Regeln definieren und anfangen, sie durchzusetzen.
- Data-Classification-Policy schreiben (eine Seite max.)
- Top-10-Datasets klassifizieren
- Automatisierte Quality-Tests für kritische Pipelines (Start mit dbt-Tests oder Great Expectations)
- Wöchentliches 30-Min-"Data-Quality-Standup" mit Stewards aufsetzen
Deliverable: Classification-Policy, Quality-Tests in CI/CD, erstes Quality-Metriken-Dashboard.
Phase 3: Scale & Automate (Woche 9–16)
Ziel: Governance auf alle produktiven Datasets ausweiten.
- Ownership für alle produktiven Datasets ausrollen
- Data Catalog deployen (oder den bestehenden ausbauen)
- Automatisches Lineage-Tracking einführen
- Access-Request-Workflows aufsetzen
- Onboarding-Docs für neue Team-Mitglieder erstellen
Deliverable: Volle Catalog-Coverage, automatisches Lineage, Self-Service-Access-Requests.
Phase 4: Continuous Improvement (laufend)
Ziel: Governance zur Gewohnheit machen, nicht zum Projekt.
- Monatliches Governance-Review — werden Policies gelebt?
- Quartalsweise Ownership-Audit — haben sich Verantwortlichkeiten verschoben?
- Governance-KPIs tracken (Catalog-Coverage, Quality-Score-Trends, Time-to-Access)
- Policies iterieren basierend auf realer Friktion
Governance-KPIs: Was wirklich zählt
Du kannst nicht managen, was du nicht misst. Diese Metriken monatlich tracken:
| KPI | Ziel | Wie messen |
|---|---|---|
| Catalog-Coverage | > 90 % der produktiven Tabellen dokumentiert | Automatischer Scan Warehouse vs Catalog |
| Ownership-Zuweisung | 100 % der produktiven Tabellen haben Owner | Catalog-Metadaten-Check |
| Quality-Test-Coverage | > 80 % der kritischen Tabellen mit automatischen Tests | dbt/GE-Test-Count vs Table-Count |
| Daten-Freshness-SLA | > 95 % der Pipelines erfüllen Freshness-SLA | Pipeline-Monitoring-Tool |
| Access-Request-Durchlaufzeit | < 24 h für Standard-Requests | Ticketing-System-Metriken |
| PII-Klassifizierung | 100 % der PII-Spalten getaggt | Automatischer PII-Scanner + Catalog |
Wenn Governance scheitert: häufige Anti-Patterns
Die Komitee-Falle: Ein "Data Governance Council" einrichten, das monatlich tagt, Slide-Decks produziert, aber nichts liefert. Governance muss in den Tages-Workflow eingebettet sein, nicht an ein Komitee delegiert.
Die Tool-First-Falle: Ein teures Catalog-Tool kaufen, bevor Ownership oder Policies definiert sind. Das Tool wird leer stehen. Erst Menschen, dann Prozesse, dann Tools.
Die Boil-the-Ocean-Falle: Versuchen, jeden Datensatz vom ersten Tag an zu governen. Du brennst aus und gibst auf. Starte mit den 10 wichtigsten Tabellen und expandiere.
Die Compliance-Only-Falle: Governance nur als DSGVO-/SOX-Checkbox behandeln. Compliance ist ein Nebenprodukt guter Governance, nicht ihr Zweck. Der Zweck ist: Daten vertrauenswürdig und zugänglich machen.
Governance für kleine Teams
Du brauchst kein dediziertes Governance-Team, um anzufangen. Aus meiner Erfahrung können Teams von 3–10 Data-Professionals wirksame Governance mit diesen Anpassungen umsetzen:
- Rollen kombinieren: Der Data Engineer, der die Pipeline baut, ist auch der Steward. Der Analytics-Lead ist auch der Owner.
- dbt als Catalog nutzen:
schema.ymlmit Descriptions, Tests und Meta-Tags deckt 80 % der Catalog-Bedürfnisse kostenlos ab. - Aggressiv automatisieren: Jeder manuelle Governance-Schritt ist ein Schritt, der nicht konsistent passiert. CI/CD für Quality-Tests, automatisches Freshness-Monitoring, Git-basierte Policy-Versionierung.
- Heavyweight-Tools weglassen: Ein gut gepflegtes dbt-Projekt + eine Notion-Seite mit Ownership-Mappings schlägt jedes Mal eine leere Atlan-Instanz.
Wenn du ein kleines Team führst, das Daten aus mehreren Quellen erkundet — APIs, CSVs, Datenbanken — lassen Tools wie Harbinger Explorer dich diese Quellen direkt im Browser mit DuckDB WASM abfragen und katalogisieren, was als schlanker Data-Exploration-Layer dienen kann, während du Governance um dein Kern-Warehouse herum aufbaust.
FAQ
Was ist der Unterschied zwischen Data Governance und Data Management?
Data Management ist das Wie — Pipelines, Storage, Quality. Data Governance ist das Wer entscheidet was — Ownership, Policies, Entscheidungsrechte. In der Praxis überlappen sie sich, aber Governance setzt den Rahmen, in dem Management operiert.
Wer sollte für Data Governance verantwortlich sein?
Idealerweise eine benannte Person mit der Rolle "Data Governance Lead" oder ein Data-Platform-Team. In kleinen Teams (< 10) übernimmt das oft der Senior Data Engineer oder Analytics Lead in Personalunion.
Wie passt DSGVO in ein Governance-Framework?
DSGVO-Anforderungen (Right-to-be-Forgotten, Auskunftsrecht, Datenminimierung) werden über die Säulen Klassifizierung (welche Spalten sind PII) und Retention (wann wird gelöscht) abgedeckt. Compliance ist ein Output der Governance, kein eigenes Projekt.
Brauche ich einen Data Catalog?
Ab 50+ Tabellen oder 5+ aktive Konsumenten pro Tabelle: ja. Davor: ein Markdown-Repo oder dbt-Docs reichen oft. Tool-Wahl erst, wenn die Ownership-Frage gelöst ist.
Wie lange dauert ein realistisches Governance-Setup?
Phase 1 (Foundation) in 4 Wochen. Phase 2 (Quality) in weiteren 4. Phase 3 (Scale) in 8. Realistisch 4–6 Monate für ein nutzbares Setup, dann laufende Iteration.
Morgen starten
Was du sofort tun kannst, vor jeder formalen Initiative:
- Die drei wichtigsten Tabellen wählen. Die, die in jedem Dashboard und jeder Stakeholder-Frage auftauchen.
- Einen Satz Beschreibung pro Tabelle schreiben. Posten, wo dein Team kommuniziert.
- Einen Quality-Test pro Tabelle ergänzen. Ein
NOT NULL-Check auf dem Primary Key zählt. In Produktion deployen. - Pro Tabelle einen Owner benennen. Schick ihnen eine Nachricht: "Du besitzt diese Tabelle. Wenn was kaputt geht, bist du der erste Anruf."
Das ist Governance. Alles andere ist hochskalieren.
Weiterlesen
[PRICING-CHECK] Atlan- und Alation-Pricing-Zahlen sind Schätzungen basierend auf öffentlichen Quellen — verifiziere mit den Vendoren für aktuelle Raten.
Stand: 14. Mai 2026.
Geschrieben von
Harbinger Team
Cloud-, Data- und AI-Engineer in DACH. Schreibt seit 2018 über infrastrukturkritische Tech-Entscheidungen — keine Marketing- Folien, sondern echte Trade-offs aus Production-Workloads.
Hat dir das geholfen?
Jede Woche ein neuer Artikel über DACH-Cloud, Data und AI — direkt in dein Postfach. Kein Spam, kein Marketing-Sprech.
Kein Spam. 1-Klick-Abmeldung. Datenschutz bei Loops.so.