Inhaltsverzeichnis9 Abschnitte
Automated Data Profiling: Kenne deine Daten, bevor du ihnen vertraust
TL;DR
- Vor jeder Nutzung externer Daten brauchst du systematisches Profiling: Null-Raten, Cardinality, Verteilungen, Type-Mixes, PII-Signale.
- Manuell mit pandas-profiling oder SQL kostet 1-4 Stunden pro 40-Spalten-Dataset und passiert meist nur einmal.
- Harbinger Explorer profiliert jede Spalte automatisch beim Crawl, Resultate sind via DuckDB-SQL queryable, PII wird sofort geflaggt.
- Ab 8 EUR/Monat (Starter), 24 EUR/Monat (Pro mit Auto-Recrawls für laufendes Re-Profiling).
Du hast gerade ein neues Dataset von einer externen API gezogen. 200.000 Rows, 40 Columns, ein README sagt "Daten sind clean und normalized". Dein Downstream-Model braucht das bis Freitag.
Vertraust du dem?
Wenn du ehrlich bist: nein. Du weißt es besser. Du bist schon mal verbrannt worden. Dieses "normalized" Dataset hatte sechs verschiedene Datumsformate. Das "clean" Dataset hatte 30% Nulls im Primary-Join-Key. Der "vollständige" Export hatte fehlende Rows für die letzten drei Monate, weil jemand das API-Pagination-Behavior geändert hat und niemand es merkte.
Bevor du Daten vertraust, musst du sie profilen. Du musst wissen, was tatsächlich da ist — nicht was die Doku sagt.
Automated Data Profiling ist die Praxis, jede Spalte in einem Dataset systematisch zu charakterisieren: Datentyp, Null-Rate, Cardinality, Wert-Verteilung, Min/Max-Ranges, häufigste Werte und Patterns, die auf Quality-Issues hindeuten. Manuell ist Profiling ein zeitraubender Multi-Hour-Prozess. Automatisiert dauert es Sekunden und gibt dir mehr Info als manuelle Profiles je liefern.
Die echten Kosten, Profiling zu überspringen
Datenqualitäts-Issues kündigen sich nicht an. Sie verstecken sich in Spalten, die du nicht inspiziert hast, tauchen in Edge-Cases auf, die du nicht getestet hast, und kommen in Production raus, wo Find-Kosten am höchsten sind.
Pain Point 1: Du kannst nicht wissen, was du nicht misst.
Die meisten Engineers machen Spot-Check-Profiling — df.head(), df.describe(), vielleicht ein Null-Count auf offensichtlichen Spalten. Aber Spot-Checks verpassen systematische Probleme. Eine Spalte mit 0,1% Null-Werten sieht im Sample fein aus. Bei 200.000 Rows sind das 200 Null-Werte, die Join-Failures oder stille Aggregations-Errors downstream verursachen. Systematisches Profiling fängt, was Spot-Checks verpassen.
Pain Point 2: Datentypen lügen.
Eine als INTEGER getypte Spalte enthält vielleicht Strings, wo das Original-Export-System einen Edge-Case hit — "N/A" wird as-is in Text gespeichert, oder ein numerisches Feld mit 99,9% Zahlen hat 50 Rows mit "pending". Deine ETL liest die Spalte als String, um Errors zu vermeiden, und jetzt kannst du nicht mehr arithmetisch arbeiten ohne Cleanup. Profiling, das tatsächliche Wert-Verteilungen checkt — nicht nur declared Types — catched das.
Pain Point 3: Cardinality-Annahmen brechen Joins und Aggregations.
Wenn du auf einem "unique" Identifier joinst, musst du wissen, dass er tatsächlich unique ist. Wenn nicht — 5.000 Duplicate-IDs in 200.000 Rows — schafft dein Join ein Kartesisches Produkt und Aggregations sind wild falsch. Ohne Profiling entdeckst du das entweder in Code-Review oder in einer Production-Metric, die zwei Wochen falsch war.
Pain Point 4: Verteilungen verraten Domain-Probleme.
Du ingestest Sales-Daten. Nach Profiling siehst du: 40% der Order-Amounts sind Null. Die API-Doku erwähnt keine Zero-Amount-Orders. Sind das legit Cancellations? Test-Data, das nicht gefiltert wurde? Du weißt es nicht — aber du weißt, dass du eine Frage zu klären hast, bevor du das in Production lädst. Ohne Profiling laden diese Zero-Orders still und verzerren jede Revenue-Metric downstream.
Pain Point 5: PII taucht auf, wo du es nicht erwartet hast.
Ein "comments"-Feld, das eigentlich Free-Text-Product-Feedback enthalten sollte, hat Customer-E-Mails, Telefonnummern und in mehreren Tausend Rows volle Namen kombiniert mit Account-Nummern. Das ist ein Compliance-Issue. Profiling mit PII-Detection catched das, bevor die Daten irgendwo Sensibles hingelangen.
Der Compounding-Effect ist signifikant. Datenqualitäts-Probleme sind exponentiell günstiger bei Ingestion zu fixen als bei Reporting. Automated Profiling ist das Gate, das sie früh catched.
Wie Teams Profiling aktuell angehen
Standard-Toolkit für Data-Profiling kombiniert ein paar Ansätze, jeder mit meaningful Limitations.
pandas-profiling (ydata-profiling):
Der häufigste Python-Ansatz. Du läufst ProfileReport(df) und kriegst einen detaillierten HTML-Report mit Verteilungen, Korrelationen, Null-Raten und mehr. Genuinely nützlich — wenn du Daten schon in einem DataFrame hast, Python aufgesetzt ist, Memory für Report-Generation verfügbar ist (kann langsam sein bei großen Datasets), und Zeit hast, den HTML-Output zu lesen.
Limitation: lokaler, manueller Step. Du läufst es einmal, liest es, und es integriert nicht in deine Pipeline. Wenn die Daten nächste Woche sich ändern und du einen fresh Export ziehst, profilen automatisch nichts neu. One-Time-Artefakt, kein Continuous-Monitoring.
Great Expectations:
Sophisticated Framework für Data Quality. Du definierst Expectations — "diese Spalte nie null", "Werte zwischen 0 und 100", "weniger als 100 Distinct-Values" — und läufst sie. Powerful für Enforcing bekannter Quality-Rules.
Limitation: Setzt voraus, dass du Rules definieren kannst. Das ist der Profiling-Step — und Great Expectations macht ihn nicht. Du musst Daten gut genug verstehen, um meaningful Expectations zu schreiben, was wiederum Profiling braucht.
SQL-Queries:
Erfahrene Data-Engineers schreiben Ad-Hoc-SQL: COUNT(*) für Nulls, COUNT(DISTINCT column) für Cardinality, MIN/MAX für Range, GROUP BY mit HAVING COUNT(*) > 1 für Duplicates. Funktioniert, produziert präzise Antworten, scriptbar.
Limitation: Zeit und Coverage. Thorough Profiling-SQL für eine 40-Spalten-Tabelle kostet eine Stunde. Über zehn Tables aus einer neuen Source: ganzer Tag. Und Expert-Work — Junior-Analysten wissen vielleicht nicht, welche Queries zu laufen oder wie Results zu interpretieren.
Manueller Review:
Daten direkt anschauen. Nützlich für qualitatives Verständnis. Skaliert nicht. Verpasst systematische Probleme bei großen Datasets.
Common Thread: Bestehende Ansätze sind entweder powerful aber labor-intensive, oder automatisiert aber begrenzt im Scope. Was fehlt: automatisches Profiling ohne manuelles Setup, das jede Spalte comprehensive covert und Results in queryable Format liefert.
Automated Data Profiling, das tatsächlich funktioniert
Der richtige Ansatz: Profiling passiert automatisch, covert jede Column und braucht kein Vorwissen, wonach zu suchen ist.
Harbinger Explorer profilet jede Column automatisch als Teil des Daten-Ingestion-Workflows. Wenn du eine Source addst und der AI Crawler die Daten collected, läuft Profiling sofort — bevor du eine Query schreibst.
Was für jede Column profiled wird:
- Datentyp — der tatsächliche Type der Values, nicht das declared Schema-Type
- Null-Rate — % Rows mit Null oder Empty
- Cardinality — Count distinkter Werte, signalisiert Key/Kategorie/Free-Text
- Wert-Verteilung — für numerische Columns: Mean, Median, StdDev, Min, Max, Perzentile
- Häufigste Werte — für kategorische Columns: Top-Values nach Frequency
- Pattern-Detection — Mixed-Formats, suspicious Outliers, anomale Value-Patterns
- PII-Signale — Detection von Patterns für E-Mails, Telefonnummern, Namen, andere PII
Läuft automatisch. Keine Config. Du spezifizierst keine Columns. Jede Column kriegt die volle Behandlung.
Results in queryable Format:
Profiling-Results sind kein statischer Report — sie sind via DuckDB-SQL queryable. Du schreibst Queries wie: "Zeige alle Columns mit Null-Rate über 5%." "Welche Columns haben weniger als 10 Distinct-Values?" "Liste alle Columns mit detected PII." So integrierst du Profiling-Results programmatisch in Data-Governance-Workflows.
Column Mapping mit Profiling-Kontext:
Das Column-Mapping-Feature nutzt Profiling-Info, um Fields across Sources zu mappen. Wenn zwei Columns aus verschiedenen APIs ähnlichen Namen, Type und Value-Distribution haben, schlägt das Tool vor, sie könnten dasselbe Concept sein — beschleunigt das Schema-Mapping-Work.
Continuous Profiling mit Recrawling:
Daten ändern sich. Eine Column mit 0% Nulls letzten Monat hat heute 15% Nulls, weil ein Upstream-System sein Behavior änderte. Im Pro-Plan re-profilet Recrawling Sources scheduled — du weißt, wenn Quality sich ändert, nicht nur initial.
Schritt-für-Schritt: Automated Data Profiling mit Harbinger Explorer
Schritt 1: Datenquelle hinzufügen.
In Harbinger Explorer "Add Source" klicken und Source konfigurieren — API-Endpoint, Doku-URL mit Downloadable-Data oder strukturierten Daten-Feed. Crawler handhabt Fetching.
Schritt 2: AI Crawler laufen lassen.
Crawler fetched Daten und läuft Profiling auf jeder Column in jeder Tabelle oder Response-Struktur, die er findet. Background — du startest Profiling nicht separat.
Schritt 3: Profiling-Summary reviewen.
Wenn Crawl fertig ist, Profiling-Summary sofort verfügbar. Column-by-Column-Übersicht: Datentypen, Null-Raten, Cardinality, Flags für Quality-Issues oder PII. Für schnelles Review designed.
Schritt 4: Spezifische Issues queryen.
DuckDB-SQL-Interface für Profiling-Results queryen. Gezielte Fragen: "Welche Columns haben mehr als 10% Nulls?" "Gibt es Columns mit nur einem Distinct-Value?" "Zeige die Distribution der revenue-Column."
Schritt 5: Flagged Columns untersuchen.
Bei Columns mit Quality-Issues durchklicken zu Underlying-Data. Sample problematischer Rows, Pattern verstehen, informierte Decision treffen — bevor sie in Production laden.
Schritt 6: Dokumentieren und teilen.
Sharing-Features nutzen, um Profiling-Results mit Data-Consumern, Data-Ownern oder Stakeholdern zu teilen. Non-Tech-User können Profiling-Summary lesen, ohne Queries zu laufen.
Selbst ausprobieren — Kostenlos loslegen. Keine Kreditkarte. 8 Demo-Datenquellen sofort abfragbar.
Advanced: Profiling at Scale und für Compliance
Cross-Source-Data-Quality-Comparison:
Wenn du Daten aus mehreren Sources konsolidierst, hilft Profiling, Quality-Differences zu verstehen, bevor du merget. Source A hat 2% Nulls in Customer-ID, Source B hat 18%. Die Differenz matter für Merge-Logic — du willst es vor dem Join-Schreiben wissen, nicht danach.
PII-Detection für Compliance:
PII-Detection läuft bei jedem Profiling-Pass. Columns mit E-Mail-Patterns, Telefon-Patterns, Name-Patterns oder anderen PII-Signalen werden automatisch geflagged. Kein Ersatz für formellen Data-Classification-Prozess, aber sehr effektive Erst-Pass-Detection für Obvious-PII vor Downstream-Move.
Für Teams unter DSGVO oder ähnlichen Regulations ist systematische PII-Detection im Ingestion-Workflow Compliance-Advantage und Risk-Reduktion. Alternative — PII in einer "comments"-Column entdecken, nachdem Daten zur Production-Warehouse repliziert wurden — ist die Sorte Incident, die regulatory Notifications generiert.
Governance-Integration:
Profiling-Results in Harbinger Explorer dienen als Data-Catalog-Artefakt. Du hast timestamped Record dessen, wie die Daten bei Ingestion aussahen — Quality-Profile, Column-Structure, PII-Flags. Genau die Sorte Doku, die Data-Governance-Programme verlangen, automatisch generiert statt manuell Forms ausfüllen.
Profiling als Trust-Prerequisite:
Der wichtigste Use von Automated Profiling ist kulturell: Es etabliert, dass Datenqualitäts-Assessment nicht optional ist. Vor jedem Dataset in Production-Reporting oder ML wird profilet. Vor jeder neuen Source-Integration wird charakterisiert. Profiling-Step ist das Gate.
Harbinger Explorer macht dieses Gate essentiell kostenlos — passiert automatisch, addet keine meaningful Zeit, braucht keine Specialized-Skills. Kein guter Grund mehr, Profiling zu überspringen. Nur die Wahl, zu wissen, was du hast, bevor du dich committest.
Vergleich
| Profiling-Task | Manueller Ansatz | Harbinger Explorer |
|---|---|---|
| 40-Spalten-Dataset profilen | 1-4 Stunden | Automatisch, Sekunden |
| Coverage | Abhängig von Analyst | Jede Column, jedes Mal |
| Null-Rate-Detection | Manuelle Query pro Column | Automatisch für alle Columns |
| Cardinality-Analyse | Manuelle Query pro Column | Automatisch für alle Columns |
| PII-Detection | Braucht separate Tools | Eingebaut, läuft automatisch |
| Queryable-Results | Nicht native — statischer Report | DuckDB-SQL auf Profiling-Data |
| Continuous Re-Profiling | Re-Run Scripts | Scheduled Recrawl (Pro) |
| Non-Tech-Sharing | HTML-Export, manuelles Formatting | Eingebautes Sharing, clean Summaries |
Preise: Starter ab 8 EUR/Monat (25 Chats/Tag, 10 Crawls/Monat) oder Pro ab 24 EUR/Monat (200 Chats/Tag, 100 Crawls/Monat, Recrawling, Priority Support). Preise ansehen →
Kostenloser 7-Tage-Trial, keine Kreditkarte. Kostenlos starten →
FAQ
Ersetzt Automated Profiling Frameworks wie Great Expectations? Sie haben komplementäre Zwecke. Profiling in Harbinger Explorer hilft beim Verstehen, was Daten sind — Discover unbekannter Quality-Issues. Frameworks wie Great Expectations enforcen Rules, die du explizit definiert hast. Profiling zum Entdecken, Rule-Frameworks zum Enforcen. Funktioniert gut zusammen.
Wie funktioniert PII-Detection? Liest sie tatsächliche Werte? PII-Detection nutzt Pattern-Matching auf tatsächlichen Column-Values — checken ob Values zu Patterns von E-Mails, Telefonnummern, Personal-IDs und ähnlichen Identifiers passen. Der Crawler verarbeitet Row-Level-Daten für Pattern-Detection. Alle Daten in deinem Account verarbeitet, nicht geteilt.
Kann ich Daten aus internen Datenbanken profilen, nicht nur externe APIs? Harbinger Explorer fokussiert aktuell auf externe API-Sources. Für interne DB-Profiling sind dedicated Data-Catalog-Tools wie Alation, Atlan oder OSS wie OpenMetadata für diesen Use Case designed.
Was, wenn eine Column gemischte Typen hat — manche Zahlen, manche Strings? Mixed-Type-Columns werden im Profiling-Output geflagged. Du siehst die Distribution der Value-Types innerhalb der Column, was sowohl Ausmaß als auch dominante Type angibt. Das ist eines der wertvollsten Dinge, die Profiling catched.
Fazit
Data-Profiling ist nicht optional. Jedes Dataset aus externer Source hat Quality-Characteristics, die du verstehen musst, bevor du arbeitest. Null-Raten, Cardinality, Distributions, PII-Signale — diese Facts bestimmen, was du tun kannst und welche Risks du eingehst, wenn du sie nicht adressierst.
Manuelles Profiling ist langsam, incomplete und skaliert nicht. Harbinger Explorers Automated-Profiling ändert das Default: Jede Source kriegt automatisches Profiling, jede Column wird charakterisiert, Results sind sofort queryable. Du gehst in jedes Dataset mit Wissen, womit du arbeitest.
Vertrau deinen Daten, weil du verifiziert hast — nicht weil du hoffst, sie sind clean.
Bereit, deine Daten zu kennen, bevor du ihnen vertraust? Harbinger Explorer kostenlos testen →
Stand: 14. Mai 2026.
Geschrieben von
Harbinger Team
Cloud-, Data- und AI-Engineer in DACH. Schreibt seit 2018 über infrastrukturkritische Tech-Entscheidungen — keine Marketing- Folien, sondern echte Trade-offs aus Production-Workloads.
Hat dir das geholfen?
Jede Woche ein neuer Artikel über DACH-Cloud, Data und AI — direkt in dein Postfach. Kein Spam, kein Marketing-Sprech.
Kein Spam. 1-Klick-Abmeldung. Datenschutz bei Loops.so.