Inhaltsverzeichnis23 Abschnitte
- TL;DR
- GPU-Preise: das Wesentliche
- Andere GPU-Klassen
- Pricing-Modelle: Modal ist anders
- Konkrete Rechnung: Inferenz-Endpoint, 100k Requests/Tag
- Workflow: Was du in Code schreibst
- Modal
- RunPod (Serverless)
- Vast.ai
- Cold-Starts in der Praxis
- Reliability und Region-Optionen
- RunPod
- Modal
- Vast.ai
- DACH-/DSGVO-Aspekte
- Wann was nehmen
- Container-Lock-in und Portabilitaet
- Real-World: Workload-Kosten ueber 4 Anbieter
- Setup-Aufwand und Time-to-First-Request
- Persistent Storage und Model-Loading
- Spot-/Interruptible-Verhalten
- Faustregeln zum Mitnehmen
- Quellen
Wer 2026 GPU-Compute fuer ML-Inferenz oder Fine-Tuning braucht und nicht in AWS, GCP oder Azure festklebt, hat drei ernsthafte Alternative: RunPod, Modal und Vast.ai. Alle drei verkaufen GPUs guenstiger als die Hyperscaler — auf unterschiedliche Art und mit unterschiedlichem Lock-in.
Hier die Aufstellung mit GPU-Preisen, Workflows und der echten DACH-relevanten Frage: wo darf ich was hosten. Stand: 14. Mai 2026.
TL;DR
- RunPod ist die Mitte. Containers, Persistent Storage, Serverless-Endpoints, anstaendige Region-Wahl in EU.
- Modal ist die Premium-Variante. Hervorragende Python-DX, zero Cold-Start mit Snapshots, hoeher gepreist.
- Vast.ai ist der Marketplace. Konsumenten-PCs als GPU-Hosts, bis zu 80 % billiger, aber inkonsistent.
- Hyperscaler-Vergleich: RunPod / Modal sind 30-60 % billiger als AWS p4d / GCP A2 / Azure NDv4.
- Faustregel: Prototyping → Vast.ai. Production-Inference → RunPod oder Modal. Training-Jobs mit Sicherung → RunPod.
GPU-Preise: das Wesentliche
H100 80GB Instanzen, On-Demand, Mai 2026:
| Anbieter | H100 80GB / h | Region EU | Spot/Interruptible |
|---|---|---|---|
| AWS p5.48xlarge (8× H100) | $98,32 / h (~$12,29 / GPU) | eu-central-1 | bis ~70 % off |
| GCP A3-highgpu-8g | $88,49 / h (~$11,06 / GPU) | europe-west4 | bis ~80 % off |
| Azure NDv5 (H100) | West Europe | bis ~70 % off | |
| RunPod Secure Cloud H100 | $3,29 / h | EU-Romania | Spot $1,99 / h |
| RunPod Community Cloud H100 | $1,89 / h | wechselt | n/a |
| Modal A100 40GB | $4,00 / h | auto | n/a |
| Modal A100 80GB | $5,00 / h | auto | n/a |
| Modal H100 80GB | $7,12 / h | auto | n/a |
| Vast.ai H100 (typ.) | $1,80-$2,50 / h | global, gemischt | n/a |
| Lambda Labs H100 | $2,99 / h | mehrere | n/a |
| TogetherAI dedicated | $2,12 / h | US | n/a |
Schock-Erkenntnis: RunPod Secure Cloud ist 3-4× billiger pro GPU als die Hyperscaler. Vast.ai ist nochmal billiger, aber inkonsistenter.
Andere GPU-Klassen
| GPU | RunPod (SC) | Modal | Vast.ai typ. |
|---|---|---|---|
| RTX 4090 24GB | $0,79 / h | - | $0,30-0,50 / h |
| A40 48GB | $0,59 / h | - | $0,35-0,55 / h |
| A100 40GB | $1,89 / h | $4,00 / h | $1,00-1,50 / h |
| A100 80GB | $2,39 / h | $5,00 / h | $1,30-1,80 / h |
| L40S 48GB | $1,49 / h | $3,20 / h | $0,80-1,20 / h |
| H100 80GB | $3,29 / h | $7,12 / h | $1,80-2,50 / h |
| H200 141GB | $4,99 / h | $9,50 / h | partiell |
| B200 192GB (neu 2026) | $9,99 / h | $14,00 / h | partiell |
Pricing-Modelle: Modal ist anders
RunPod und Vast.ai: Stuendliche Abrechnung pro Instanz. Wenn du sie nicht abreisst, zahlst du weiter.
Modal: Pay-Per-Second mit Pause-on-Idle. Container faehrt nach Sekunden Inaktivitaet runter, naechster Aufruf bringt ihn zurueck.
Modals Pricing-Komponenten:
| Komponente | Preis |
|---|---|
| CPU pro vCPU-Sekunde | $0,000038 |
| RAM pro GB-Sekunde | $0,0000056 |
| GPU pro Sekunde (z. B. A100 40GB) | $0,001111 ($4/h) |
| Container Image Storage | $0,00000556 / GB-Sekunde |
| Ephemeral Disk | inkludiert |
| Egress | gestaffelt, ~$0,09 / GB |
Bei kurzen Inferenz-Anfragen (z. B. 2 s Compute) zahlst du bei Modal nur 2 GPU-Sekunden, nicht eine Stunde. Das ist der Killer- Vorteil fuer Endpoints mit niedriger Auslastung.
Konkrete Rechnung: Inferenz-Endpoint, 100k Requests/Tag
Annahme: 100k Requests pro Tag, jeweils 1 s GPU-Compute. Total: 100k × 1 s = 100k GPU-Sekunden = 27,8 GPU-Stunden / Tag = 833 Stunden / Monat.
| Anbieter | Strategie | Kosten / Monat |
|---|---|---|
| AWS p5.48xlarge On-Demand | 1 Instanz 24/7 (8× H100) | ~$72.000 |
| RunPod Secure H100 24/7 | 1 GPU permanent | $2.397 |
| RunPod Secure H100 + Autoscale | 833 GPU-Hour | $2.741 |
| Modal H100 Pay-Per-Sec | 100k × 1 s = 27,8 GPU-h × 30 = 833 GPU-h | $5.929 |
| Vast.ai H100 24/7 | 1 GPU permanent | $1.387 |
Bei kontinuierlichem Use ist RunPod der Sweet-Spot. Vast.ai ist billiger, aber Reliability-Risiko ist real.
Bei bursty Use (10k Requests / Tag) gewinnt Modal dramatisch — du zahlst nur fuer die Sekunden, in denen wirklich gerechnet wird.
Workflow: Was du in Code schreibst
Modal
import modal
app = modal.App("my-model")
@app.function(gpu="A100-80GB", image=modal.Image.debian_slim().pip_install("torch", "transformers"))
def predict(text: str) -> str:
# Modell laden + Vorhersage
return ...
@app.local_entrypoint()
def main():
result = predict.remote("Hallo Welt")
print(result)
modal deploy app.py und du hast einen Endpoint. Sub-Sekunden Cold-
Start mit Snapshots.
RunPod (Serverless)
# handler.py
def handler(event):
input_data = event["input"]
# ... compute
return {"output": ...}
# Dockerfile
FROM python:3.11
RUN pip install runpod transformers torch
COPY handler.py /
CMD ["python", "-u", "/handler.py"]
runpodctl deploy und du hast einen Endpoint. Container-First-
Workflow.
Vast.ai
SSH-Login auf eine VM, Container starten, eigenen Endpoint exponieren. Marketplace-Mentalitaet: du suchst eine Instanz im Bid-System (interruptible) oder mietest fix.
Cold-Starts in der Praxis
| Anbieter | Empty Cold-Start | Warm Cold-Start | Snapshots |
|---|---|---|---|
| Modal | 2-5 s | < 1 s | ja |
| RunPod Serverless | 5-15 s | 2-4 s | partiell |
| Vast.ai | n/a (manuelle Sessions) | n/a | nein |
Modal Snapshots sind das beste Feature der drei: dein geladenes Model bleibt im Memory eines snapshotteten Containers, und der naechste Cold-Start ist Sub-Sekunde. Das ist Bezahltheit-Steuerung at its best.
Reliability und Region-Optionen
RunPod
- Secure Cloud: Tier-1-Datacenter, professionell, EU-Regionen (Bukarest, Stockholm, Amsterdam)
- Community Cloud: Endkunden-Anbieter, billiger, weniger reliable
- SLA: 99,9 % Secure Cloud, kein SLA Community
- Persistent Storage: Network Volumes, $0,10 / GB / Monat
Modal
- Hosted und gemanagt auf AWS und GCP unter der Haube
- Auto-Region-Selection, manuell wahlbar zwischen US East, US West, EU
- SLA: 99,9 % bei Production-Tier
- Persistent Storage: Modal Volumes, $0,02 / GB / Monat
Vast.ai
- Marketplace: GPU-Hosts sind oft Privatpersonen mit Gaming-PCs
- Reliability variabel: 95-99 % je nach Host
- Region: weltweit, EU-Auswahl moeglich
- Kein SLA: Hosts koennen Maschine ohne Warnung wegnehmen
- Persistent Storage: nur via S3-Mount-Workaround
DACH-/DSGVO-Aspekte
| Aspekt | RunPod | Modal | Vast.ai |
|---|---|---|---|
| EU-Region waehlbar | ja (Bukarest, Stockholm) | ja (Frankfurt) | partiell |
| GDPR DPA | ja | ja | nein offiziell |
| ISO 27001 | partiell | ja | nein |
| HIPAA-faehig | nein | partiell (BAA) | nein |
| Datenresidenz hart durchsetzbar | ja, mit Region-Lock | ja, mit Region-Lock | nein |
Fuer DACH-Geschaeftskunden mit Personendaten: RunPod oder Modal. Vast.ai nur fuer Experimente ohne Personenbezug (z. B. eigene Fine-Tunes, synthetische Daten).
Wann was nehmen
Schnelles Prototyping (Single-User, Fine-Tune, Forschung): Vast.ai. $1,50 / h auf einer A100 80GB ist unschlagbar.
Production-Inference, kontinuierlicher Traffic: RunPod Secure Cloud. Mit Autoscaling und EU-Region: zuverlaessig, billig, GDPR-konform.
Production-Inference, bursty / niedriger Average-Load: Modal. Pay-Per-Second und Snapshots koennen 90 % einsparen gegenueber 24/7-Instanz.
Fine-Tuning-Jobs (mehrere Stunden): RunPod Secure (H100, Persistent Volume) oder Vast.ai (Risiko, aber gut billig).
Compliance-Strenge Workloads: Modal mit EU-Region und BAA-Option oder weiter Azure / AWS.
Hyperscaler-Migration: Wenn du auf AWS p4d/p5 stehst und 70 % sparen willst: RunPod Secure Cloud ist 2026 die beliebteste Migration.
Container-Lock-in und Portabilitaet
Gute Nachricht: alle drei nutzen Docker/OCI-Container. Dein Setup ist grundsaetzlich portierbar.
Unterschiede:
- Modal hat eigene Python-Decorator-API. Wenn du Modal-spezifisch schreibst, ist Migration aufwendiger.
- RunPod ist generisch (Container + Handler). Migration zu z. B. einem K8s-Cluster auf eigener Hardware ist einfach.
- Vast.ai ist purer Docker — am wenigsten Lock-in.
Real-World: Workload-Kosten ueber 4 Anbieter
Konkrete Inferenz-App fuer einen Kunden 2026: Llama-3-70B-Instruct- Inferenz, 8.000 Requests / Tag, durchschnittlich 800 Tokens / Output = ~7 s GPU-Compute pro Request auf H100.
| Anbieter / Setup | $ / Tag | $ / Monat |
|---|---|---|
| AWS p5.48xlarge On-Demand (immer-an, voll bezahlt) | $2.360 | $70.800 |
| AWS p5.48xlarge mit Saving Plan 1y | $1.652 | $49.560 |
| AWS p5.48xlarge Spot (typ. 30 % OD) | $710 | $21.300 |
| RunPod Secure H100 (1 GPU, 24/7) | $79 | $2.397 |
| RunPod Secure H100 mit Autoscale (durchschn. 60 % Idle) | $48 | $1.450 |
| RunPod Community H100 (24/7, Risiko) | $45 | $1.387 |
| Modal H100 Pay-Per-Sec (8000 × 7s) | $112 | $3.360 |
| Vast.ai H100 (24/7 fix-Rent) | $48 | $1.440 |
| Specialist API (Together Llama-70B) | $93 | $2.790 |
Lesson Learned: Bei dem Profil ist RunPod Secure mit Autoscale fast 50× billiger als AWS On-Demand und reliabler als Vast.ai.
Setup-Aufwand und Time-to-First-Request
Wir haben einen Standard-FastAPI + Llama-3-Inferenz-Container auf allen drei deployed:
| Anbieter | Setup-Zeit | Doku-Qualitaet | Beobachtungen |
|---|---|---|---|
| Modal | ~30 min | Hervorragend | Beste Python-DX |
| RunPod | ~1,5 h | Gut | Dockerfile + Handler nötig |
| Vast.ai | ~3 h | Mittel | Manuelle SSH-Steps |
| AWS p4d | ~4 h | OK | EKS + Karpenter Setup |
| Lambda Labs | ~2 h | Gut | SSH + tmux Old-School |
Modals Python-Decorator-Modell ist fuer Inferenz wirklich fantastisch. Wenn dein Team Python-first ist und du dich nicht mit Docker-Build-Pipelines aufhalten willst: Modal probieren.
Persistent Storage und Model-Loading
Eines der unterschaetzten Themen: Model-Weights laden. Ein 70B-Modell hat ~140 GB Files. Bei jedem Cold-Start herunterladen ist nicht moeglich.
| Anbieter | Persistent-Storage-Optionen | Empfehlung fuer Models |
|---|---|---|
| RunPod | Network Volumes, $0,10 / GB / Mo | Mount Volume in Container |
| Modal | Modal Volumes, $0,02 / GB / Mo | Volume mit Pre-Load |
| Vast.ai | Lokales Disk, kein managed-Volume | S3-Cache + Local-Disk |
| AWS | EFS, S3, EBS | S3 + Cache-on-First-Request |
Bei Vast.ai der echte Pain: kein Persistent Volume zwischen Sessions. Du musst entweder von S3 caches oder bei jedem Start neu downloaden — 140 GB ueber 10 Gbit/s = ~2 min, also tolerabel.
Spot-/Interruptible-Verhalten
| Anbieter | Interruptible-Warning-Zeit | Wie Workload-Sicherung |
|---|---|---|
| AWS Spot | 2 min | EFS-Mount + Checkpoint |
| RunPod Spot | 30-60 s | Persistent Volume |
| Vast.ai | inkonsistent (Host-Whim) | externe Storage |
| Modal | nicht spot | n/a |
Wenn du Training-Jobs machst, ist Checkpoint-on-Interruption Pflicht. RunPod Spot mit Persistent Volume ist die guenstigste Variante mit Sicherungs-Pfad.
Faustregeln zum Mitnehmen
- Hyperscaler nur, wenn du Service-Integration brauchst. GPU-Pricing der Spezialisten ist ueberlegen.
- Production: RunPod Secure Cloud. Reliability + EU + Preis.
- Bursty Workload: Modal. Pay-Per-Sec rechnet sich.
- Experimente: Vast.ai. Geld sparen, Risiko akzeptieren.
- Container nicht zu speziell schreiben. Portabilitaet wert.
Quellen
Pricing-Stand: 14. Mai 2026. GPU-Marktpreise sind Spot-Sensitiv — besonders bei H100/H200 schwanken Preise woechentlich. Aktuelle Preise auf den Provider-Pages.
Geschrieben von
Harbinger Team
Cloud-, Data- und AI-Engineer in DACH. Schreibt seit 2018 über infrastrukturkritische Tech-Entscheidungen — keine Marketing- Folien, sondern echte Trade-offs aus Production-Workloads.
Hat dir das geholfen?
Jede Woche ein neuer Artikel über DACH-Cloud, Data und AI — direkt in dein Postfach. Kein Spam, kein Marketing-Sprech.
Kein Spam. 1-Klick-Abmeldung. Datenschutz bei Loops.so.