Cloud allgemein

Data-Source-Inventory-Tool: Das Werkzeug, das dein Team wirklich braucht

Verstreute Datenquellen kosten dein Team jede Woche Stunden. Harbinger Explorer katalogisiert jede Quelle automatisch — durchsuchbar, abfragbar, immer aktuell.

Harbinger Team14. Mai 20269 Min. LesezeitAktualisiert 14.5.2026
  • data-source-inventory
  • data-catalog
  • data-governance
  • pii-detection
  • duckdb-sql
  • data-discovery
  • dach
Inhaltsverzeichnis17 Abschnitte

Data-Source-Inventory-Tool: Das Werkzeug, das dein Team wirklich braucht

Du öffnest eine Confluence-Seite mit dem Titel „Data Sources — Master List" und kriegst sofort dieses sinkende Gefühl. Letzte Aktualisierung: vor acht Monaten. Die Hälfte der Links ist tot. Jemand hat in Rot „CHECK MIT DBA VOR NUTZUNG" neben drei Einträge geschrieben — aber der DBA hat im Oktober gekündigt. Du schließt den Tab und fragst einen Kollegen.

Klingt bekannt? Das ist Data-Source-Wildwuchs — und er kostet dein Team mehr, als du wahrscheinlich denkst.

TL;DR

  • 30–60 Min/Analyst/Tag verschwinden in der Quellensuche, bevor die erste Abfrage steht.
  • Wiki, Spreadsheets und gewachsene Catalog-Tools veralten lautlos.
  • Ein praktisches Inventar-Tool muss: automatisch crawlen, durchsuchbar sein, Metadaten zeigen, ad-hoc-querying erlauben und sich selbst aktuell halten.
  • Harbinger Explorer liefert das im Browser — Crawler + Katalog + DuckDB-SQL in einem Tool, ab 8 €/Monat.

Die echten Kosten verstreuter Datenquellen

Für die meisten Datenteams existiert das Konzept „Data-Source-Inventar" irgendwo zwischen Wunschdenken und ewig verschobenem Backlog-Ticket. Die Quellen sind da — PostgreSQL-DBs, S3-Buckets, REST-APIs, Google-Sheets-Exporte, Vendor-Feeds — aber sie liegen verstreut über ein Dutzend Slack-Threads, halbfertige Wiki-Seiten und das Kopfwissen des längsten Mitarbeiters.

Das Ergebnis ist berechenbare Verschwendung.

Zeit, die in der Discovery stirbt. Bevor irgendeine sinnvolle Analyse beginnt, brauchen Analysten oft 30–60 Minuten, um die richtige Quelle zu finden, ihre Aktivität zu bestätigen und herauszufinden, wie man sich connectet. Bei einem Fünfer-Team mit drei parallelen Projekten heißt das: bis zu 15 Stunden pro Woche weg, bevor die erste Query geschrieben ist.

Doppelarbeit. Ohne zentralen Katalog bauen Engineers eigene mentale Maps. Zwei Analysten bauen ähnliche Pipelines zur selben Quelle, weil keiner wusste, dass der andere es tut. Schatten-Datasets multiplizieren sich. Qualität leidet.

Governance-Lücken. Welche Quellen enthalten PII? Welche unterliegen DSGVO-Retention? Welche Vendor-API hat ein Usage-Cap, das Overage-Fees auslöst? Wer das nicht aus einer Oberfläche beantworten kann, hat keine Sichtbarkeit — sondern Hoffnung.

Onboarding-Friktion. Ein neuer Data Engineer kommt rein. Tag eins: fünf Jahre altes Architektur-Diagramm und „mach dich mit dem Datenlayer vertraut". Zwei Wochen später findet er noch Quellen, die er nicht kannte. Nicht sein Fehler — ein Dokumentations-Problem.

Der Schmerz ist nicht abstrakt. Jeden Tag, an dem dein Team ohne Inventar arbeitet, bezahlst du in langsamer Sprint-Velocity, frustrierten Analysten und Entscheidungen auf unvollständiger Information.

Wie Teams das üblicherweise versuchen — und warum es scheitert

Ehrlich zu den existierenden Ansätzen: nicht nutzlos, aber sie skalieren nicht.

Der Wiki/Confluence-Ansatz. Jemand schreibt eine Seite. Tag eins: akkurat. Monat drei: Quellen hinzu, entfernt, restrukturiert — keiner hat die Seite gepflegt. Das Wiki funktioniert als Snapshot, scheitert als lebender Katalog, weil die Pflege manuelle Disziplin braucht, die unter Sprint-Druck nicht durchhält.

Das geteilte Spreadsheet. Gleiches Problem. Etwas zugänglicher, aber immer noch manuell. Und Spreadsheets können sich nicht zur Quelle connectn, um zu prüfen, ob sie lebt, oder das Schema zu sehen.

Eigenes Internal-Tooling. Manche reife Data-Engineering-Teams bauen eigene Metadaten-Kataloge. Richtiger Instinkt, brutaler Execution-Preis — Monate an Engineering, laufender Wartungsaufwand, und das Tool wird beim ersten Business-Critical-Pipeline-Brand zum Prio-0-Projekt nach unten.

Kommerzielle Data-Kataloge (Alation, Collibra, Atlan). Exzellente Produkte für Enterprise-Scale. Auch zum Enterprise-Preis. Für ein Startup oder Mittelständler mit 20–50 Quellen ist 1000+ €/Monat Overkill.

Was fehlt: etwas dazwischen. Schnell aufzusetzen, akkurat (nicht manuell), durchsuchbar und wirklich nützlich, ohne dreimonatiges Implementation-Projekt.

Wie ein gutes Inventory-Tool aussieht

Bevor wir zu konkreten Tools kommen, definieren wir „gut". Ein praktisches Inventar-Tool muss fünf Dinge können:

1. Quellen automatisch katalogisieren. Du sollst nicht jede Spalte in jeder Tabelle manuell beschreiben müssen. Das Tool connectet zur Quelle — oder crawlt sie bei APIs und File-Sources — und extrahiert das Schema selbst.

2. Alles durchsuchbar machen. Der Wert eines Katalogs ist proportional zur Fund-Geschwindigkeit. Full-Text-Suche über Quellen-Namen, Spalten, Beschreibungen und Tags ist Pflicht.

3. Metadaten neben Daten zeigen. Zu wissen, dass eine Spalte user_email existiert, ist nützlich. Zu wissen, dass sie als PII markiert ist, ~400.000 unique Values hat und in drei Downstream-Pipelines gejoint wird — das ist echt mächtig.

4. Ad-hoc-Querying unterstützen. Inventar ist nur Schritt eins. Sobald jemand die richtige Quelle gefunden hat, will er explorieren. Tools, die katalogisieren, aber zum Querying ein anderes Tool erzwingen, erzeugen unnötige Friktion.

5. Sich ohne Handarbeit aktuell halten. Schemas ändern sich. APIs werden versioniert. Tabellen werden deprecated. Ein Inventar, das nur beim initialen Crawl akkurat war, wird zur Haftung. Geplantes Re-Crawling ist essentiell.

Harbinger Explorer: durchsuchbarer Katalog, der queryt

Harbinger Explorer ist ein browser-basiertes Inventory-Tool um die Idee gebaut, dass Katalogisieren und Querying am selben Ort passieren sollten.

Der Kern-Workflow:

Du gibst Harbinger Explorer eine URL — REST-API-Endpoint, Daten-Portal, öffentliches Dataset, irgendeine web-erreichbare Quelle. Der AI Crawler übernimmt. Er erkundet die Quelle, mappt ihre Struktur, identifiziert Spaltentypen, flaggt potenzielle PII-Felder und baut die Schema-Repräsentation. Du schreibst keine Doku; der Crawler tut es.

Das Ergebnis landet in deinem persönlichen Katalog: durchsuchbare Bibliothek aller Quellen, die du hinzugefügt hast. Jeder Eintrag zeigt URL, extrahiertes Schema, Spaltennamen und -typen, Governance-Flags. Alles voll volltext-durchsuchbar — tippe „revenue" und sieh jede Spalte über alle Quellen, die das enthalten könnte.

Und ohne Tool-Wechsel kannst du direkt querien. Harbinger Explorer nutzt DuckDB-SQL, um Queries gegen deinen Katalog im Browser laufen zu lassen. Kein lokaler DB-Client. Kein SSH-Tunnel. Kein „welche Connection-String war das nochmal?". Quelle gefunden, Schema gesehen, Query geschrieben — an einem Ort.

So baust du dein Inventar in Harbinger Explorer

Setup in Minuten, nicht Wochen.

Schritt 1: Registrieren und einloggen. harbingerexplorer.com/register. Keine Kreditkarte. 7-Tage-Trial mit allen Features plus 8 Demo-Quellen.

Schritt 2: Erste Quelle hinzufügen. „New Source" klicken, URL einfügen. Public-API-Endpoint, CSV/JSON-Download-Link oder beliebige web-erreichbare Ressource. Der AI Crawler startet sofort — die meisten Quellen sind in unter 30 Sekunden durch.

Schritt 3: Generiertes Schema reviewen. Nach dem Crawl zeigt Harbinger Explorer dir Spaltenstruktur: Namen, inferred Types, Beispielwerte (wo verfügbar), PII-/Governance-Flags. Tags und Notes ergänzen, damit die Quelle auffindbar wird.

Schritt 4: Über deinen Katalog suchen. Mit wachsendem Katalog: Suche nach Spaltenname, Datentyp, Tag oder Freitext. Dein Katalog wird zum lebenden Index aller Zugriffsmöglichkeiten deines Teams.

Schritt 5: Im Browser querien. In eine Quelle klicken, SQL-Editor öffnen. DuckDB-SQL gegen deine katalogisierten Daten — filtern, aggregieren, über Quellen joinen, Ergebnisse exportieren. Katalog und Query-Interface sind verschmolzen.

Selbst ausprobierenKostenlos starten. Keine Kreditkarte. 8 Demo-Quellen ready zum Querien.

Advanced-Features: Governance, PII, Team-Workflows

Für Teams im Scale geht Harbinger Explorer über reines Inventar hinaus.

PII-Detection. Der AI Crawler flaggt automatisch Spalten, die wahrscheinlich personenbezogene Daten enthalten — Namen, E-Mails, Telefonnummern, Behörden-IDs. Sofortiger Startpunkt für DSGVO-Compliance-Reviews ohne manuelle Annotation. Jede neue Quelle kommt mit fertigem PII-Audit.

Column Mapping. Wenn mehrere Quellen verwandte Infos enthalten — sagen wir customer_id in fünf Quellen — surfaced Column Mapping diese Beziehungen automatisch. Wertvoll für Cross-Source-Joins und Lineage-Tracking.

Governance-Tagging. Jenseits von PII tagst du Quellen mit Custom-Labels: sensitive, external-vendor, deprecated, approved-for-analytics. Tags sind durchsuchbar und bulk-anwendbar nach dem Crawl.

Re-Crawling (Pro). Quellen stehen nicht still. APIs kriegen neue Endpoints. Tabellen neue Spalten. Pro inkludiert geplantes Re-Crawling, damit der Katalog automatisch frisch bleibt. Du definierst die Frequenz; Harbinger erledigt den Rest.

DuckDB-SQL mit Cross-Source-Joins. Power-User-Feature: weil alle Quellen im selben System katalogisiert sind, kannst du SQL-Queries über sie hinweg joinen. Daten aus einer Public-API mit einer CSV verbinden — alles in einem Query-Fenster.

Vergleich: Alte Welt vs. Harbinger Explorer

FeatureSpreadsheet/WikiHarbinger Explorer
Initiales SetupStunden bis TageMinuten pro Quelle
Schema-AkkuratheitManuell, oft veraltetAI-gecrawlt, auto-aktualisiert
Full-Text-SucheBasic (Strg+F)Built-in, Spalten-Ebene
PII-DetectionManuelles ReviewAutomatisches Flagging
Ad-hoc-QueryingSeparates Tool nötigInline DuckDB-SQL
Re-CrawlingManuelle Re-EntryGeplant (Pro)
OnboardingSpreadsheet-TourKatalog-URL teilen
Kosten (5er-Team)Personal-ZeitAb 8 €/Monat pro User

Pricing: Starter ab 8 €/Monat (25 Chats/Tag, 10 Crawls/Monat) oder Pro 24 €/Monat (200 Chats/Tag, 100 Crawls/Monat, Re-Crawling, Priority Support). Preise ansehen →

7 Tage gratis, keine Kreditkarte. Kostenlos starten →

Der versteckte Wert konsolidierten Schema-Wissens

Es gibt einen Compounding-Effekt eines gut gepflegten Inventars, der anfangs unterschätzt wird: jede zukünftige Query wird schneller.

Wenn der Katalog umfassend und aktuell ist, ändert sich das Arbeitsmuster. Ein Analyst startet nicht mehr mit „welche Daten haben wir überhaupt?". Er startet mit Katalog-Suche. Die Antwort ist schon da — Spalten, Typen, Beispiele, Flags. Von Frage zu erster Query in Minuten statt Stunden.

Das zählt überproportional für bestimmte Arbeit:

Incident Response. Wenn etwas in einer Pipeline bricht und Daten schnell zurückverfolgt werden müssen — durchsuchbarer Katalog ist der Unterschied zwischen 20-Minuten-Untersuchung und 2-Stunden-Suche. Jede Quelle dokumentiert.

Cross-funktionale Zusammenarbeit. PM fragt: „haben wir Daten zu X?" Klassische Antwort: „Frage ans Data-Team, dauert 1–2 Tage." Mit Katalog: „Such X im Katalog." Non-Technical-Stakeholder können Self-Serve.

Compliance und Audit. DSGVO-Auskunftsanspruch — Legal will wissen, wo User-Daten liegen. Mit PII-Flags im Katalog ist die Antwort schnell. Ohne machst du manuelle Sweeps. Stressig, langsam, fehleranfällig.

Project-Scoping. Neues Analyse-Projekt — „was haben wir überhaupt?" Mit Katalog: 30-Minuten-Browsing statt einwöchiger Discovery-Phase.

Keine dieser Vorteile ist hypothetisch. Sie ergeben sich aus einer Sache: zu wissen, welche Daten du hast und wo du sie findest.

FAQ: Data-Source-Inventar mit Harbinger Explorer

Kann Harbinger Explorer auf private oder interne Datenbanken zugreifen?

Aktuell ist Harbinger Explorer auf web-erreichbare Quellen optimiert — Public-APIs, gehostete Datasets, CSV/JSON via URL. Support für private DB-Connections (PostgreSQL, MySQL usw.) ist auf der Roadmap. Für interne Quellen heute: exportierte Schema-Files oder Sample-Exports als Startpunkt.

Wie handhabt der AI Crawler Authentifizierung?

Quellen mit API-Keys oder Token-Auth: Authentifizierungs-Header beim Hinzufügen konfigurieren. Harbinger Explorer speichert sie sicher und nutzt sie beim Crawl und Query.

Wie akkurat ist die PII-Detection?

Heuristisch, basierend auf Spaltennamen, Datenmustern und Feldstrukturen. Designed, um wahrscheinliche PII-Kandidaten für menschliches Review zu surfen — kein Ersatz für einen formalen Compliance-Prozess. Sieh es als automatischen ersten Pass.

Speichert Harbinger Explorer meine Daten?

Schema-Metadaten und Query-Ergebnisse aus deinen Sessions werden gespeichert, die zugrundeliegenden Source-Daten nicht persistent. Queries laufen live gegen die Quelle.

Was, wenn ich schon einen kommerziellen Catalog nutze?

Harbinger Explorer ist komplementär. Viele User nutzen ihn als Lightweight-Exploration-Layer — schnell Quellen entdecken und querien, bevor man entscheidet, was ins schwere System gehört.

Wie unterscheidet sich Starter von Pro?

Starter 8 €/Monat: 10 Crawls/Monat, reicht für einen kleinen Katalog bis 10 aktiver Quellen. Pro 24 €/Monat: 100 Crawls plus geplantes Re-Crawling — essenziell, wenn Quellen häufig updaten und das Schema automatisch frisch bleiben soll.

Fazit: Aufhören zu fragen, anfangen zu suchen

Das Inventar-Problem ist einer dieser stillen Produktivitäts-Drains, die selten Priorität bekommen, bis es richtig wehtut. Bis dahin hast du hunderte Analyst-Stunden in Discovery-Overhead verloren, ein halbes Dutzend redundanter Pipelines gebaut, und drei neue Engineers, die Quellen immer noch durch Fragen finden.

Harbinger Explorer ist designt, das ab Tag eins einfacher zu machen. Quellen hinzufügen, AI Crawler den Katalog bauen lassen, alles durchsuchen, direkt im Browser querien. Kein Multi-Year-Projekt — ein Tool, in dem du 15 Minuten nach Signup produktiv bist.

Das Datenwissen deines Teams sollte nicht im Kopf einer Person oder in einer Confluence-Seite von 2022 leben. Pack es irgendwohin, wo man suchen kann. Ein akkurater, aktueller, abfragbarer Katalog ist eines der höchsten Leverage-Investments, das ein Datenteam machen kann — mit Harbinger Explorer in Minuten, nicht Monaten.

Bereit, das Setup zu überspringen und loszulegen? Harbinger Explorer kostenlos testen →

Stand: 14. Mai 2026. Features und Preise können sich ändern — aktuelle Details auf der Harbinger-Seite.

H

Geschrieben von

Harbinger Team

Cloud-, Data- und AI-Engineer in DACH. Schreibt seit 2018 über infrastruktur­kritische Tech-Entscheidungen — keine Marketing- Folien, sondern echte Trade-offs aus Production-Workloads.

Hat dir das geholfen?

Jede Woche ein neuer Artikel über DACH-Cloud, Data und AI — direkt in dein Postfach. Kein Spam, kein Marketing-Sprech.

Kein Spam. 1-Klick-Abmeldung. Datenschutz bei Loops.so.