Inhaltsverzeichnis9 Abschnitte
No-Code Data Catalog: Selbst-aktualisierender Datenkatalog ohne 50k-Preis
Freitag, Daily-Standup. "Woher kommt diese Umsatz-Zahl eigentlich?" Du weißt, sie stammt aus einer API. Du glaubst, vom Billing-Endpoint. Aber welches Feld? Welche Version? Wer hat es zuletzt angefasst? Vierzig Minuten später hast du Slack-Threads durchsucht, eine halbfertige Confluence-Seite und drei README-Files gefunden — und bist immer noch nicht 100 % sicher.
Das ist das Data-Catalog-Problem in einem Satz — nicht, dass die Daten nicht da wären, sondern dass niemand weiß, was sie sind, wo sie liegen und wie aktuell sie sind. Enterprise-Plattformen versprechen die Lösung. Und kassieren 50.000 € pro Jahr dafür.
Es geht besser. Ein No-Code Data Catalog, der sich selbst baut — direkt aus deinen APIs, Uploads und Live-Datenquellen — in Minuten. Kein Setup, kein Data-Team, kein Enterprise-Vertrag nötig.
TL;DR
- Enterprise-Kataloge (Collibra, Alation, Ataccama) kosten 50k+ pro Jahr und brauchen Monate für Implementierung.
- Harbinger Explorer crawlt deine APIs automatisch und baut den Katalog inkl. Schema, Sample-Werten und PII-Detection in unter 5 Minuten.
- Ab 8 €/Monat, kein Setup, kein Data-Engineer nötig.
Der echte Schmerz undokumentierter Daten
Jeder Data-Profi kennt die Symptome. Sie tauchen zum schlechtest möglichen Moment auf — vor einer Board-Präsentation, während eines Audits, beim Onboarding eines neuen Team-Mitglieds.
Du findest nicht, woher die Daten kommen. Deine Organisation hat APIs. Manche intern, manche extern. Manche dokumentiert, die meisten nicht. Du weißt, die Daten sind irgendwo, aber genau zu bestimmen, welcher Endpoint welches Feld liefert, ist echte Arbeit. Die API hat sich vielleicht geändert. Die Doku hat vielleicht nie existiert.
Spaltennamen sagen dir nichts. val_amt_usd_net_fx_adj — was bedeutet das? Umsatz? Kosten? Eine Margen-Rechnung? Ohne Katalog mit Field-Descriptions, Datentypen und Sample-Werten muss jeder neue Consumer das von Grund auf rückwärts entwickeln. Das ist keine kleine Ineffizienz, sondern eine wachsende Steuer auf jeden Analysten, Engineer und Data Scientist im Team.
Du weißt nicht, was sich geändert hat. APIs entwickeln sich. Felder werden umbenannt, deprecated oder still hinzugefügt. Ohne Katalog mit Schema-Change-Tracking erfährst du es auf die harte Tour — wenn ein Dashboard kaputt geht oder eine Query Nulls zurückgibt, wo früher Zahlen standen.
Onboarding dauert Wochen, nicht Tage. Jedes neue Team-Mitglied muss die Landschaft neu lernen. Welche APIs nutzt die Firma? Wie sehen die Tabellen aus? Was sind die Beziehungen? Ein gepflegter Datenkatalog macht aus wochenlanger Schatzsuche eine halbstündige Orientierung.
Governance ist ohne Katalog unmöglich. Du kannst keine Datenqualität auf Daten erzwingen, die du nicht katalogisiert hast. Du erkennst keine PII-Exposition auf Feldern, die du nicht kennst. Compliance-Gespräche werden zum Raten statt evidenzbasiert.
Die Kosten sind nicht abstrakt. Es sind Analyst-Stunden für Archäologie statt Analyse. Doppelarbeit, weil Teams nicht wissen, was schon existiert. Entscheidungen auf Daten, die niemand voll versteht. Für die meisten kleinen und mittleren Data-Teams im DACH-Raum ist das nicht ein "50k-Problem" — sondern ein "wir können es uns schlicht nicht leisten, das zu beheben"-Problem.
Was bestehende Lösungen falsch machen
Der Enterprise-Datenkatalog-Markt ist reif, gut finanziert und fast ausschließlich für Organisationen mit dedizierten Data-Governance-Teams und sechsstelligen Budgets gebaut.
Collibra, Alation, Ataccama — ernsthafte Plattformen für ernsthafte Enterprise-Probleme. Sie handhaben komplexe Lineage, regulatorische Compliance, Multi-Cloud-Deployments und große Governance-Programme. Sie brauchen auch Monate für die Implementierung, dedizierte Admins und starten preislich auf einem Niveau, das sie für die meisten Startups, Scale-ups und Mittelstand-Firmen ausschließt. Wenn du einen DSB und ein Data-Platform-Team hast, sind diese Tools sinnvoll. Die meisten Firmen haben das nicht.
dbt docs ist ein wirklich nützliches Tool, wenn dein gesamter Stack in dbt lebt. Es generiert Doku automatisch aus Model-Definitionen und zeigt Column-Level-Lineage im dbt-Graph. Die Grenze: es kennt nur, was du in dbt definiert hast. APIs, Flat Files, externe Quellen oder alles außerhalb der Transformation-Layer ist unsichtbar.
Notion- oder Confluence-Wikis ist, wo die meisten Teams landen. Jemand legt eine "Data Dictionary"-Seite an, fügt Tabellen ein und verspricht, sie aktuell zu halten. Innerhalb eines Monats veraltet. Niemand pflegt es, weil es manuell, schmerzhaft und immer niedriger priorisiert ist als Features. Die Doku verfällt schneller, als sie geschrieben wird.
OpenMetadata und DataHub sind Open-Source-Alternativen, die genuin mächtig — und genuin komplex sind. Du musst Infrastruktur deployen und pflegen, Connectoren konfigurieren, die Metadata-Ingestion-Pipeline managen und den operativen Overhead einer weiteren Plattform tragen. Für ein Zwei- oder Drei-Personen-Data-Team ist das keine Lösung, sondern ein Zweitjob.
Das Muster ist konsistent: entweder zahlst du Enterprise-Preise für Enterprise-Infrastruktur, oder du akzeptierst, dass dein Katalog manuell, veraltet und unvollständig ist.
Ein Katalog, der sich selbst baut
Was, wenn dein Datenkatalog sich automatisch füllt — bei jeder neuen API, jedem Upload, jeder Schema-Änderung?
Stell dir vor, du fügst die URL deiner Billing-API ein. Innerhalb von Sekunden crawlt das System jeden Endpoint, identifiziert jedes Feld, infert Datentypen, erkennt nested Strukturen, markiert potenzielle PII und legt einen strukturierten Katalog-Eintrag an — automatisch. Keine Config-Files. Keine Ingestion-Pipelines. Kein Data-Engineering nötig.
Dann stell dir vor, dieser Katalog ist queryable. Nicht nur browsable — wirklich queryable mit SQL. Wenn ein Kollege fragt "welche Felder hat die Orders-API?", ist die Antwort keine Confluence-Seite, die vielleicht aktuell ist. Es ist ein Live-Schema, das die API zeigt, wie sie heute existiert.
Genau das macht Harbinger Explorer. Es ist ein No-Code-Datenkatalog rund um Live-API-Crawling, automatische Schema-Discovery und Natural-Language-Querying — ohne den Infrastruktur-Overhead von Enterprise-Plattformen.
Der AI-Crawler ist der Kernmechanismus. Zeig auf irgendeine API — REST, öffentlich, intern, dokumentiert oder nicht — und er mapt jeden Endpoint, erfasst Response-Strukturen, sampelt Field-Werte, infert Datentypen und baut automatisch ein strukturiertes Schema. Den Katalog pflegst du nicht. Er baut sich aus den Quellen, die du verbindest.
Column Mapping lässt dich Felder in einfacher Sprache umbenennen, beschreiben und klassifizieren. Wenn val_amt_usd_net_fx_adj eigentlich "Net Revenue nach FX-Adjustment" ist, fügst du diese Beschreibung einmal hinzu und alle, die das Feld abfragen, sehen sie. Kontext bleibt. Wissen lebt nicht mehr in einem Kopf.
PII-Detection läuft automatisch auf jeder gecrawlten Quelle. Felder mit Namen, E-Mail-Adressen, Telefonnummern oder anderen persönlichen Daten werden markiert, bevor sie downstream fließen. Für Teams mit DSGVO-Pflichten oder internen Data-Policies wird ein vormals manueller Audit-Prozess zum Standard.
DuckDB SQL heißt: dein Katalog ist nicht nur Referenz-Dokument — er ist eine Query-Schicht. Frag "zeig mir alle Felder vom Typ String in der Customer-API, die in den letzten 30 Tagen hinzugefügt wurden" und bekomme eine echte Antwort, kein Raten.
So funktioniert es
Deinen No-Code-Datenkatalog mit Harbinger Explorer aufzubauen, dauert Minuten, nicht Monate.
Schritt 1: Datenquellen hinzufügen. Im Sources-Panel die URL eines API-Endpoints einfügen oder eine CSV-, JSON-, Excel-Datei hochladen. Harbinger Explorer akzeptiert REST-APIs (authentifiziert oder öffentlich), statische Uploads und Cloud-Storage-Links. Keine Connector-Konfiguration nötig.
Schritt 2: AI-Crawler baut deinen Katalog. Sobald eine Quelle hinzugefügt ist, läuft der AI-Crawler automatisch. Er crawlt jeden zugänglichen Endpoint, mapt Response-Felder, sampelt Werte, infert Datentypen und strukturiert das Output als browsable Schema. Für eine typische REST-API mit 10–20 Endpoints dauert das unter zwei Minuten.
Schritt 3: Mit Beschreibungen anreichern. Mit Column Mapping fügst du Business-Kontext hinzu — freundliche Namen, Beschreibungen, Owner, PII-Klassifizierungen. Dieser Schritt macht aus einem Raw-Schema einen brauchbaren Datenkatalog. Die meisten Teams brauchen 20–30 Minuten, um eine volle API zu annotieren — gegen Tage mit manueller Doku.
Schritt 4: Katalog abfragen. SQL-Editor öffnen und explorieren. Fragen auf Deutsch stellen ("wie viele Endpoints haben ein Timestamp-Feld?") oder direkt DuckDB SQL schreiben. Dein Katalog ist live — er zeigt den aktuellen Stand deiner APIs, kein Snapshot vom letzten Quartal.
Schritt 5: Teilen und kollaborieren. Team-Mitglieder können den Katalog browsen, Queries ausführen und Dashboards bauen, ohne die APIs zu berühren. Wissen, das in einem Engineer-Kopf lebte, ist jetzt geteilt, durchsuchbar und aktuell.
Selbst ausprobieren — Kostenlos starten. Keine Kreditkarte. 8 Demo-Datenquellen ready to query.
Advanced-Features
Sobald dein Katalog live ist, hat Harbinger Explorer Tiefe, für die Enterprise-Tools stark kassieren.
Governance-Workflows. Felder als sensibel markieren, Nutzungs-Policies anwenden und steuern, welche Team-Mitglieder welche Quellen abfragen. Governance ist kein separates Modul — sie ist von Tag eins in die Katalog-Schicht eingebaut.
Schema-Change-Tracking. Wenn eine gecrawlte API sich ändert — neue Felder, Typänderungen, deprecated Endpoints — markiert Harbinger Explorer das Delta. Du siehst, was sich wann geändert hat und was downstream betroffen sein könnte. Keine stillen Schema-Mutationen mehr, die Pipelines kaputt machen.
Cross-Source-JOINs. Weil Harbinger Explorer DuckDB SQL über alle Quellen nutzt, joinst du Daten verschiedener APIs in einer einzigen Query. Billing-API-Felder mit CRM-API-Schema korrelieren? Eine SQL-Query, kein Data-Engineering-Projekt.
Natural-Language-Suche. Alle Felder, die "Umsatz" repräsentieren, über deinen ganzen Katalog finden? Frage tippen. Harbinger Explorer nutzt semantische Suche, um relevante Felder über alle Quellen aufzufinden, auch wenn Field-Namen deinen Suchbegriffen nicht entsprechen.
Recrawling und Frische. Im Pro-Plan hält automatisches Recrawling deinen Katalog ohne manuelles Zutun aktuell. Crawls täglich, wöchentlich oder on-demand. Wenn APIs sich aktualisieren, aktualisiert sich dein Katalog mit.
Vergleich: alter Weg vs. Harbinger Explorer
| Feature | Manuell / Enterprise-Katalog | Harbinger Explorer |
|---|---|---|
| Setup-Zeit | Wochen bis Monate | Unter 5 Minuten |
| Kosten | 50k+/Jahr (Enterprise) oder erheblicher Infra-Overhead | Ab 8 €/Monat |
| Schema-Discovery | Manuell oder Connector-basiert | Automatischer AI-Crawler |
| Queryable Katalog | Selten, separates Tooling nötig | Eingebautes DuckDB SQL |
| PII-Detection | Enterprise-Add-on oder manueller Audit | Automatisch bei jedem Crawl |
| Schema-Change-Tracking | Manuell oder fortgeschrittene Integration | Eingebaut mit Alerts |
| No-Code-Setup | Nein | Ja, voll No-Code |
| Frische | Hängt vom Ingestion-Schedule ab | Live + geplantes Recrawling |
Pricing: Starter ab 8 €/Monat (25 Chats/Tag, 10 Crawls/Monat) oder Pro 24 €/Monat (200 Chats/Tag, 100 Crawls/Monat, Recrawling, Priority-Support). Preise ansehen →
7-Tage-Trial gratis, keine Kreditkarte. Kostenlos starten →
FAQ
Brauche ich technisches Wissen, um den Katalog aufzusetzen? Nein. Harbinger Explorer ist voll No-Code. Wenn du eine URL einfügen oder eine Datei hochladen kannst, kannst du einen Datenkatalog bauen. Der AI-Crawler übernimmt Discovery automatisch — nichts zu konfigurieren.
Wie verhält es sich zu Enterprise-Katalogen wie Collibra oder Alation? Enterprise-Kataloge sind für große Organisationen mit dedizierten Governance-Teams gebaut. Sie sind mächtig, brauchen aber erheblichen Implementierungs-Aufwand und Budget. Harbinger Explorer ist für Teams gemacht, die Katalog-Funktionen ohne Enterprise-Overhead brauchen. Es ersetzt keine volle Governance-Plattform für eine 10.000-Personen-Organisation, aber für die meisten Data-Teams erledigt es 90 % der Arbeit zu 2 % der Kosten.
Sind meine API-Daten sicher? Harbinger Explorer crawlt API-Schemas und sampelt eine kleine Anzahl Response-Records für Typ-Inferenz. Deine Raw-Production-Daten leben nicht in Harbinger Explorer — nur strukturelle Metadaten. Alle Verbindungen sind verschlüsselt im Transport und at-rest.
Was passiert, wenn sich mein API-Schema ändert? Im Pro-Plan erkennt geplantes Recrawling Schema-Änderungen automatisch. Wenn ein Feld hinzugefügt, entfernt oder im Typ geändert wird, siehst du das Delta klar. Im Starter-Plan triggerst du Recrawls manuell.
Kann ich private oder interne APIs hinzufügen? Ja. Harbinger Explorer unterstützt authentifizierte APIs mit API-Keys, OAuth-Tokens und Bearer-Tokens. Interne APIs, die aus deinem Netzwerk erreichbar sind, sind unterstützt — für Private-Network-Konfigurationen Support kontaktieren.
Erfüllt das DSGVO-Anforderungen für DACH-Kunden? Daten werden in Frankfurt verarbeitet, AVV verfügbar. PII-Detection ist standardmäßig aktiv, sodass sensible Felder vor dem Querying gemarkt sind.
Schluss mit 50k für einen Katalog, den deine APIs sich selbst bauen können
Datenkataloge sollten keinen sechsstelligen Vertrag, keine mehrmonatige Implementierung und kein dediziertes Admin-Team brauchen. Sie sollten sich aus den Daten bauen, die du schon hast, aktuell bleiben, wenn deine APIs sich entwickeln, und für alle im Team queryable sein — ohne Engineering-Support.
Das liefert Harbinger Explorer. Ein No-Code-Datenkatalog, der sich aus APIs und Uploads selbst füllt, durch automatisches Recrawling frisch bleibt, PII erkennt, Schema-Änderungen verfolgt und eine SQL-Query-Schicht auf allem hat — ab 8 €/Monat.
Die Freitag-Standup-Frage — "woher kommt diese Zahl?" — sollte eine Ein-Klick-Antwort haben. Mit Harbinger Explorer hat sie das.
Setup überspringen und katalogisieren? Harbinger Explorer kostenlos testen →
Stand: 14. Mai 2026.
Geschrieben von
Harbinger Team
Cloud-, Data- und AI-Engineer in DACH. Schreibt seit 2018 über infrastrukturkritische Tech-Entscheidungen — keine Marketing- Folien, sondern echte Trade-offs aus Production-Workloads.
Hat dir das geholfen?
Jede Woche ein neuer Artikel über DACH-Cloud, Data und AI — direkt in dein Postfach. Kein Spam, kein Marketing-Sprech.
Kein Spam. 1-Klick-Abmeldung. Datenschutz bei Loops.so.