Rechner · Data & KI
Was kostet die Vektorisierung für ein RAG-System?
Bevor ihr einen KI-Assistenten auf eure eigenen Dokumente baut: gebt Dokumentenmenge, Länge und Modell ein und seht in 30 Sekunden, was die einmalige Vektorisierung kostet — und was danach monatlich für Updates und Storage anfällt.
Einmalige Vektorisierung (RAG-Aufbau)
0,11 €
für 5.000 Dokumente · 6.000.000 Tokens mit OpenAI 3-small
Anwendungsfall
Ein langes Dokument wird oft in mehrere Chunks zerlegt
Faustregel: ~750 Wörter ≈ 1.000 Tokens
günstig, sehr gutes Preis-/Leistungsverhältnis
Anteil des Bestands, der monatlich neu erstellt wird (Updates)
Managed Vektor-DB: 0,25 €/GB·Monat
Kosten-Aufschlüsselung
Initial (einmalig)
0,11 €
6,00 Mio. Tokens
Neu-Vektor./Mo
0,01 €
10 % des Bestands
Storage/Mo
1,25 €
5 GB
1. Jahr gesamt (initial + 12 Mo)
15 €
Initial
0,11 €
Pro Monat
1,26 €
Günstigstes Modell
Self-hosted (BGE-M3)
Modelle im Vergleich · 1. Jahr gesamt
bei dieser Konfiguration
Inkl. einmaliger Vektorisierung, monatlicher Neu-Vektorisierung und Storage. Self-hosted zeigt nur Storage — die eigene GPU-/Betriebskosten kommen separat dazu.
KI-Use-Case gefunden? Wir bauen ihn.
AInfach Data setzt KI-Anwendungen auf euren eigenen Daten um — DSGVO-konform, EU-gehostet, mit Quelle statt Raten.
Embeddings sind selten der teure Teil
Die gute Nachricht zuerst: Die einmalige Vektorisierung ist bei den meisten Mittelstands-Projekten überraschend günstig. Eine interne Wissensdatenbank mit ein paar tausend Dokumenten kostet mit einem kleinen Modell oft nur wenige Euro — die Angst vor „KI-Kosten“ ist an dieser Stelle meist unbegründet.
Die laufenden Kosten entstehen weniger durch das Embedding selbst als durch zwei andere Dinge: wie oft sich eure Dokumente ändern (jede Änderung erzeugt neue Vektoren) und wo die Vektoren liegen. Eine Managed-Vektor-DB ist bequem, aber pro Gigabyte teurer als eine selbst betriebene Lösung. Der eigentliche Kostentreiber im laufenden Betrieb sind dann oft die Abfragen über das Sprachmodell — die rechnet ihr separat im LLM-API-Rechner.
Worauf es bei der Modellwahl ankommt
- Dimensionen. Mehr Dimensionen heißt mehr Storage. Ein 3072-dim-Vektor braucht doppelt so viel Platz wie ein 1536-dim-Vektor — bei Millionen Chunks summiert sich das.
- Sprache. Für deutschsprachige Dokumente lohnt ein Blick auf mehrsprachig trainierte Modelle (z. B. Cohere), die hier oft bessere Treffer liefern als rein englisch-zentrierte.
- Qualität vs. Preis. Das teuerste Modell ist selten nötig. Für interne Suche reicht oft ein kleines Modell — das Geld besser in sauberes Chunking und gute Metadaten stecken.
Welche Kombination aus Modell, Chunking und Vektor-DB für euren konkreten Anwendungsfall am besten passt, klären wir in 30 Minuten — ehrlich, ohne Verkaufs-Tanz.
Häufige Fragen
Was sind Embeddings und warum kosten sie Geld?
Ein Embedding ist die Umwandlung von Text in einen Zahlen-Vektor, der die Bedeutung abbildet. Für ein RAG-System („Frage-Antwort auf eigenen Dokumenten“) müssen alle Dokumente einmal in solche Vektoren übersetzt werden. Embedding-Modelle rechnen nach Tokens ab — meist mit einem Preis je 1 Mio. Tokens. Bei text-embedding-3-small sind das nur wenige Cent pro Million, bei größeren Modellen entsprechend mehr.
Wie berechnen sich die einmaligen Kosten?
Anzahl Dokumente × Ø Tokens je Dokument ergibt die Gesamt-Tokens. Geteilt durch 1 Mio. und multipliziert mit dem Token-Preis des Modells ergibt das die einmaligen Vektorisierungs-Kosten. Faustregel: rund 750 Wörter entsprechen etwa 1.000 Tokens. Lange Dokumente werden vorher in kleinere Chunks zerlegt — jeder Chunk zählt als eigene Einheit.
Was sind die laufenden Kosten nach dem Aufbau?
Zwei Posten: erstens die Neu-Vektorisierung, wenn sich Dokumente ändern oder neue dazukommen (im Rechner als Prozentsatz des Bestands pro Monat). Zweitens der Storage in der Vektor-Datenbank — der hängt von Anzahl und Dimensionen der Vektoren ab. Eine Managed-Vektor-DB ist teurer pro GB als eine selbst betriebene, dafür ohne eigenen Betriebsaufwand.
Lohnt sich ein self-hosted Open-Source-Modell?
Self-hosted (z. B. BGE-M3) hat keine Token-Kosten, aber GPU- oder Server-Betrieb, Wartung und Modell-Hosting kosten realistisch ab ein paar hundert Euro im Monat. Das rechnet sich erst bei sehr großem oder dauerhaft hohem Volumen. Für die meisten Mittelstands-Projekte ist eine API zu Beginn günstiger und schneller startklar — der Rechner zeigt den Token-Anteil neutral, die Betriebskosten kommen separat dazu.
Verwandte Rechner
Weiter rechnen
LLM-API-Preise
Was die Abfragen über das Sprachmodell pro Monat kosten — der zweite RAG-Posten.
ROI: KI & Reporting
Lohnt sich ein KI- oder Reporting-Projekt für euren Betrieb überhaupt?
Datenplattform-Kosten
Wenn aus RAG eine echte Datenplattform werden soll.
Alle Rechner
Cloud-, Data- und KI-Kosten konkret durchrechnen.