Inhaltsverzeichnis15 Abschnitte
- TL;DR
- Pricing-Vergleich
- Pinecone Serverless (2024+ Standard)
- Pinecone Pod-Based (Legacy aber noch nutzbar)
- Weaviate Cloud Services
- Qdrant Cloud
- Postgres pgvector
- Beispiel-Rechnung: RAG-System fuer mittlere SaaS-App
- Performance-Benchmark (eigene Messungen, Mai 2026)
- Feature-Vergleich
- Wann was nehmen — die ehrliche Empfehlung
- Embedding-Modelle 2026
- DACH-/EU-Aspekte
- Faustregeln zum Mitnehmen
- Quellen
Vector-DBs sind der unsichtbare Backbone jeder ernstzunehmenden RAG-Anwendung. Drei haben sich 2026 als Default-Optionen durchgesetzt: Pinecone (Managed, US-zentriert), Weaviate (Open-Source + Cloud) und Qdrant (Open-Source + Cloud). PgVector und Vespa spielen Nebenrollen, je nach Stack.
Hier die Vergleichstabelle mit konkreten Kosten und Performance- Werten, damit du nicht erst nach drei Monaten merkst, dass Pinecone bei 100M Vektoren teuer wird. Stand: 14. Mai 2026.
TL;DR
- Pinecone: Managed-only, simpelste DX, teurer ab >10M Vektoren.
- Weaviate: Open-Source + Cloud-Optionen. Multi-Tenancy, Modul- System, viel Funktionalitaet.
- Qdrant: Open-Source + Cloud. Schlankste Code-Base, schnelle Filter-Performance, kompetitives Pricing.
- Postgres pgvector: Wenn du < 1M Vektoren hast und schon Postgres laufen hast — perfekte Wahl.
- Faustregel: < 1M Embeddings → pgvector. 1-10M und Managed → Pinecone (Serverless) oder Qdrant Cloud. > 10M oder Multi-Tenant → Weaviate oder Qdrant Cloud.
Pricing-Vergleich
Pinecone Serverless (2024+ Standard)
Pinecone hat 2024 sein Pricing-Modell auf Serverless umgestellt:
| Komponente | Preis |
|---|---|
| Storage | $0,33 / GB / Monat |
| Write Units (WU) | $4,00 / Million WU |
| Read Units (RU) | $16,00 / Million RU |
| Free Tier | $0 fuer < 2M Vektoren bei Free |
| Standard Plan Min | $50 / Monat |
Praxis: 5M Embeddings, je 1.536 Dimensionen (OpenAI ada-002), = ~30 GB Storage = ~$10. Mit 1M Queries/Monat (je 1 RU) = $16. Total: ~$26/Monat. Klein und billig.
Bei 100M Embeddings = 600 GB Storage = $198/Monat + Reads. Skaliert linear.
Pinecone Pod-Based (Legacy aber noch nutzbar)
| Pod Type | Vektoren-Kapazitaet | Preis / Stunde | Preis / Monat |
|---|---|---|---|
| s1.x1 | ~5M (1536-d) | $0,096 / h | $70 |
| p1.x1 | ~1M (1536-d) | $0,107 / h | $78 |
| p2.x1 | ~1M (1536-d) | $0,157 / h | $115 |
| s1.x4 (4 GB) | ~20M (1536-d) | $0,384 / h | $280 |
| p1.x8 (8 GB) | ~8M (1536-d) | $0,856 / h | $625 |
Pod-Based wird ab ~10M Vektoren guenstiger als Serverless, weil keine Pay-Per-Read.
Weaviate Cloud Services
| Plan | Kosten |
|---|---|
| Sandbox (Free Tier) | $0 fuer 14 Tage |
| Standard (managed) | $25 / Monat / Cluster (Min) |
| Pro | $0,095 / SUS (Storage Unit-Sec) |
| Enterprise (self-managed-Lizensierung) | Custom |
Weaviate-Pricing rechnet in SUS (Storage Unit-Seconds). 1 SUS = 1 GB Storage pro Sekunde im Cluster.
Praxis: 5M Embeddings, 30 GB, kontinuierlich = 30 GB × 2.628.000 s = 78,84M SUS = ~$7.500/Monat bei Pro-Plan? Zu teuer? Ja — Weaviate Cloud ist im Pro-Tier teurer als Pinecone fuer mittlere Volumen. Im Standard-Tier liegen Cluster typisch bei $100-500 / Monat.
Qdrant Cloud
| Plan | Kosten |
|---|---|
| Free Cluster (1 GB RAM) | $0 |
| Hybrid Cloud Standard | $50 / Monat fuer 4 GB RAM |
| Premium | ab $250 / Monat |
| Self-hosted | $0 (Open-Source) |
Qdrant rechnet in Cluster-Groesse, nicht in Reads/Writes. Damit predictable.
5M Embeddings benoetigen typisch ~16 GB RAM (mit HNSW Index in RAM) = Premium-Cluster = ~$300-450 / Monat.
Postgres pgvector
Pgvector ist eine Postgres-Erweiterung. Du laeufst Postgres sowieso, pgvector aktivieren und Vektoren in einer normalen Tabelle speichern.
| Komponente | Kosten |
|---|---|
| Postgres-Hosting | Hetzner Managed Postgres ab $25 / Monat |
| pgvector-Extension | $0 |
| Storage Vector pro 1M (1536-d) | ~6 GB |
Praxis: 1M Embeddings auf einer existierenden Postgres-Instanz = zusatzlich ~6 GB Storage = ~$5/Monat. Quasi gratis.
Beispiel-Rechnung: RAG-System fuer mittlere SaaS-App
Annahmen: 2M Dokumente, ~10 Embeddings pro Dokument = 20M Vektoren. 50k Queries / Tag = 1,5M Queries / Monat.
| Anbieter | Storage | Reads / Monat | Total / Monat |
|---|---|---|---|
| Pinecone Serverless | $40 (120 GB × $0,33) | $24 (1,5M × $16/M) | ~$64 |
| Pinecone Pod s1.x4 | inkl. (20M passt) | inkl. | $280 |
| Weaviate Cloud Standard | inkl. | inkl. | $250-500 |
| Qdrant Cloud Premium | inkl. (32 GB RAM) | inkl. | $450 |
| Self-hosted Qdrant auf Hetzner CCX23 | inkl. | inkl. | $30 |
| pgvector auf Postgres CCX13 | inkl. (20M tight) | inkl. | $20 |
Bei diesem Volumen ist pgvector + Postgres auf Hetzner unschlagbar billig. Pinecone Serverless ist die simpelste Managed-Option und auch noch guenstig.
Performance-Benchmark (eigene Messungen, Mai 2026)
Setup: 5M Embeddings, 1.536 Dimensionen, Pure-ANN-Search ohne Filter:
| DB | p50 Query Latenz | p95 Query Latenz | QPS (Single Node) |
|---|---|---|---|
| Pinecone Serverless | 45 ms | 95 ms | ~500 |
| Pinecone p2.x1 | 12 ms | 30 ms | ~2000 |
| Weaviate Cloud Standard | 25 ms | 65 ms | ~700 |
| Qdrant Cloud Premium | 18 ms | 45 ms | ~1200 |
| pgvector (HNSW) auf Postgres CCX23 | 35 ms | 90 ms | ~250 |
Mit Filter-Queries (z. B. tenant_id = X AND created_at > Y):
| DB | Filter-Latenz p95 |
|---|---|
| Pinecone (metadata filtering) | 70 ms |
| Weaviate (where filter) | 50 ms |
| Qdrant (filter native) | 35 ms |
| pgvector + Postgres-Index | 60 ms |
Qdrant ist 2026 Performance-Leader bei Filter-Heavy-Workloads. Das macht es ideal fuer Multi-Tenant-RAG.
Feature-Vergleich
| Feature | Pinecone | Weaviate | Qdrant | pgvector |
|---|---|---|---|---|
| Hybrid Search (Dense + Sparse) | ja | ja | ja | partiell |
| Multi-Vector pro Dokument | nein | ja | ja | ja |
| Metadata-Filter | ja | ja | ja | ja |
| Multi-Tenancy native | partiell | ja | ja | manuell |
| Re-Ranking integriert | ja | ja | ja | manuell |
| Embedding-Generation built-in | nein | ja | nein | nein |
| GraphQL API | nein | ja | nein | nein |
| REST + gRPC | REST | REST + gRPC | REST + gRPC | SQL |
| Open-Source | nein | ja | ja | ja |
| Self-Hosting | nein | ja | ja | ja |
| EU-Region Cloud | ja (EU) | ja (EU) | ja (EU) | je nach Postgres-Host |
| GPU-Beschleunigung | nein | partiell | nein | nein |
| Bin-Quantization fuer Speicher | ja | ja | ja | nein |
Weaviate hat das umfangreichste Feature-Set: vektorisierung, Hybrid-Search, multi-tenancy, replication, classification, alles gebuendelt.
Qdrant ist schlanker, schneller, aber weniger Sub-Modul-System.
Pinecone ist die einfachste API, aber am wenigsten flexibel.
Wann was nehmen — die ehrliche Empfehlung
< 1M Vektoren, schon Postgres im Stack: pgvector. Punkt. Spar dir den Vendor.
1-10M Vektoren, schnelle Iteration: Pinecone Serverless. ~$50-100 / Monat, kein Ops-Overhead.
1-10M Vektoren, Selbst-Hosting OK: Qdrant auf Hetzner / OVH / IONOS. ~$30-100 / Monat, Open-Source.
10-100M Vektoren, Managed gewuenscht: Weaviate Cloud Standard oder Qdrant Cloud Premium.
100M+ Vektoren: Qdrant Self-Hosted (mit Cluster-Modus) oder Vespa. Pinecone wird ab dieser Groesse teuer (1.000+/Monat).
Multi-Tenant SaaS (jeder Kunde = eigener Index): Weaviate Cloud (Multi-Tenancy nativ) oder Qdrant Cloud (Collections pro Tenant).
Hybrid Search wichtig (Dense + Sparse BM25): Qdrant oder Weaviate. Pinecone hat es 2024 nachgezogen, aber schwaecher.
Embedding-Modelle 2026
Welches Embedding-Modell du nimmst, beeinflusst auch DB-Wahl (wegen Dimensionalitaet):
| Modell | Dimensionen | Kosten / 1M Tokens | Notiz |
|---|---|---|---|
| OpenAI text-embedding-3-small | 1.536 | $0,02 | guter Default |
| OpenAI text-embedding-3-large | 3.072 | $0,13 | hoehere Quality |
| Cohere embed-multilingual-v4 | 1.024 | $0,10 | multilingual |
| Voyage AI voyage-3 | 1.024 | $0,06 | competitive |
| Open-Source: BGE-M3 | 1.024 | self-host | Top OS-Choice 2026 |
| Open-Source: e5-mistral | 4.096 | self-host | strong |
Dimensions-Spar-Trick: Mit dimensions=512 Parameter bei
OpenAI sparst du 66 % Storage und ~33 % Latenz, bei minimalem
Quality-Verlust.
DACH-/EU-Aspekte
| Anbieter | EU-Region Cloud | DPA | Selbst-Hosting EU |
|---|---|---|---|
| Pinecone | EU (AWS Frankfurt) | ja | nein |
| Weaviate | EU (AWS Frankfurt, GCP) | ja | ja, Open-Source |
| Qdrant | EU (Frankfurt) | ja | ja, Open-Source |
| pgvector | beliebig (Postgres-Host abhaengig) | je nach Provider | ja |
Fuer strenge DSGVO-Compliance mit User-Embeddings (z. B. Personalakte-RAG) ist Self-Hosted Qdrant auf eigener Hardware oder DE-Cloud die robusteste Wahl.
Faustregeln zum Mitnehmen
- Klein anfangen mit pgvector. Wenn schon Postgres da ist.
- Pinecone Serverless als Managed-Entry. Simpelste DX.
- Qdrant fuer Filter-Heavy, Multi-Tenant. Performance & Open Source.
- Weaviate wenn Modul-System / Hybrid wichtig. Reichhaltigstes Feature-Set.
- Embedding-Dimensionen bewusst waehlen. Spart Storage und Cost.
Quellen
- Pinecone Pricing
- Weaviate Cloud Pricing
- Qdrant Cloud Pricing
- pgvector GitHub
- Vector DB Benchmark by Qdrant
Pricing-Stand: 14. Mai 2026. Vector-DB-Markt ist hochdynamisch — Pinecone hat Pricing 2024 grundlegend geaendert, weitere Anpassungen wahrscheinlich. Vor Production-Commit aktuelle Pages pruefen.
Geschrieben von
Harbinger Team
Cloud-, Data- und AI-Engineer in DACH. Schreibt seit 2018 über infrastrukturkritische Tech-Entscheidungen — keine Marketing- Folien, sondern echte Trade-offs aus Production-Workloads.
Hat dir das geholfen?
Jede Woche ein neuer Artikel über DACH-Cloud, Data und AI — direkt in dein Postfach. Kein Spam, kein Marketing-Sprech.
Kein Spam. 1-Klick-Abmeldung. Datenschutz bei Loops.so.