RunPod vs Modal vs Vast.ai 2026: Die GPU-Cloud-Optionen jenseits der Hyperscaler

Inhaltsverzeichnis23 Abschnitte

TL;DR
GPU-Preise: das Wesentliche
Andere GPU-Klassen
Pricing-Modelle: Modal ist anders
Konkrete Rechnung: Inferenz-Endpoint, 100k Requests/Tag
Workflow: Was du in Code schreibst
Modal
RunPod (Serverless)
Vast.ai
Cold-Starts in der Praxis
Reliability und Region-Optionen
RunPod
Modal
Vast.ai
DACH-/DSGVO-Aspekte
Wann was nehmen
Container-Lock-in und Portabilitaet
Real-World: Workload-Kosten ueber 4 Anbieter
Setup-Aufwand und Time-to-First-Request
Persistent Storage und Model-Loading
Spot-/Interruptible-Verhalten
Faustregeln zum Mitnehmen
Quellen

Wer 2026 GPU-Compute fuer ML-Inferenz oder Fine-Tuning braucht und nicht in AWS, GCP oder Azure festklebt, hat drei ernsthafte Alternative: RunPod, Modal und Vast.ai. Alle drei verkaufen GPUs guenstiger als die Hyperscaler — auf unterschiedliche Art und mit unterschiedlichem Lock-in.

Hier die Aufstellung mit GPU-Preisen, Workflows und der echten DACH-relevanten Frage: wo darf ich was hosten. Stand: 14. Mai 2026.

TL;DR

RunPod ist die Mitte. Containers, Persistent Storage, Serverless-Endpoints, anstaendige Region-Wahl in EU.
Modal ist die Premium-Variante. Hervorragende Python-DX, zero Cold-Start mit Snapshots, hoeher gepreist.
Vast.ai ist der Marketplace. Konsumenten-PCs als GPU-Hosts, bis zu 80 % billiger, aber inkonsistent.
Hyperscaler-Vergleich: RunPod / Modal sind 30-60 % billiger als AWS p4d / GCP A2 / Azure NDv4.
Faustregel: Prototyping → Vast.ai. Production-Inference → RunPod oder Modal. Training-Jobs mit Sicherung → RunPod.

GPU-Preise: das Wesentliche

H100 80GB Instanzen, On-Demand, Mai 2026:

Anbieter	H100 80GB / h	Region EU	Spot/Interruptible
AWS p5.48xlarge (8× H100)	$98,32 / h (~$12,29 / GPU)	eu-central-1	bis ~70 % off
GCP A3-highgpu-8g	$88,49 / h (~$11,06 / GPU)	europe-west4	bis ~80 % off
Azure NDv5 (H100)	~~$98 / h (~~$12,25 / GPU)	West Europe	bis ~70 % off
RunPod Secure Cloud H100	$3,29 / h	EU-Romania	Spot $1,99 / h
RunPod Community Cloud H100	$1,89 / h	wechselt	n/a
Modal A100 40GB	$4,00 / h	auto	n/a
Modal A100 80GB	$5,00 / h	auto	n/a
Modal H100 80GB	$7,12 / h	auto	n/a
Vast.ai H100 (typ.)	$1,80-$2,50 / h	global, gemischt	n/a
Lambda Labs H100	$2,99 / h	mehrere	n/a
TogetherAI dedicated	$2,12 / h	US	n/a

Schock-Erkenntnis: RunPod Secure Cloud ist 3-4× billiger pro GPU als die Hyperscaler. Vast.ai ist nochmal billiger, aber inkonsistenter.

Andere GPU-Klassen

GPU	RunPod (SC)	Modal	Vast.ai typ.
RTX 4090 24GB	$0,79 / h	-	$0,30-0,50 / h
A40 48GB	$0,59 / h	-	$0,35-0,55 / h
A100 40GB	$1,89 / h	$4,00 / h	$1,00-1,50 / h
A100 80GB	$2,39 / h	$5,00 / h	$1,30-1,80 / h
L40S 48GB	$1,49 / h	$3,20 / h	$0,80-1,20 / h
H100 80GB	$3,29 / h	$7,12 / h	$1,80-2,50 / h
H200 141GB	$4,99 / h	$9,50 / h	partiell
B200 192GB (neu 2026)	$9,99 / h	$14,00 / h	partiell

RunPod und Vast.ai: Stuendliche Abrechnung pro Instanz. Wenn du sie nicht abreisst, zahlst du weiter.

Modal: Pay-Per-Second mit Pause-on-Idle. Container faehrt nach Sekunden Inaktivitaet runter, naechster Aufruf bringt ihn zurueck.

Modals Pricing-Komponenten:

Komponente	Preis
CPU pro vCPU-Sekunde	$0,000038
RAM pro GB-Sekunde	$0,0000056
GPU pro Sekunde (z. B. A100 40GB)	$0,001111 ($4/h)
Container Image Storage	$0,00000556 / GB-Sekunde
Ephemeral Disk	inkludiert
Egress	gestaffelt, ~$0,09 / GB

Bei kurzen Inferenz-Anfragen (z. B. 2 s Compute) zahlst du bei Modal nur 2 GPU-Sekunden, nicht eine Stunde. Das ist der Killer- Vorteil fuer Endpoints mit niedriger Auslastung.

Konkrete Rechnung: Inferenz-Endpoint, 100k Requests/Tag

Annahme: 100k Requests pro Tag, jeweils 1 s GPU-Compute. Total: 100k × 1 s = 100k GPU-Sekunden = 27,8 GPU-Stunden / Tag = 833 Stunden / Monat.

Anbieter	Strategie	Kosten / Monat
AWS p5.48xlarge On-Demand	1 Instanz 24/7 (8× H100)	~$72.000
RunPod Secure H100 24/7	1 GPU permanent	$2.397
RunPod Secure H100 + Autoscale	833 GPU-Hour	$2.741
Modal H100 Pay-Per-Sec	100k × 1 s = 27,8 GPU-h × 30 = 833 GPU-h	$5.929
Vast.ai H100 24/7	1 GPU permanent	$1.387

Bei kontinuierlichem Use ist RunPod der Sweet-Spot. Vast.ai ist billiger, aber Reliability-Risiko ist real.

Bei bursty Use (10k Requests / Tag) gewinnt Modal dramatisch — du zahlst nur fuer die Sekunden, in denen wirklich gerechnet wird.

Workflow: Was du in Code schreibst

import modal

app = modal.App("my-model")

@app.function(gpu="A100-80GB", image=modal.Image.debian_slim().pip_install("torch", "transformers"))
def predict(text: str) -> str:
    # Modell laden + Vorhersage
    return ...

@app.local_entrypoint()
def main():
    result = predict.remote("Hallo Welt")
    print(result)

modal deploy app.py und du hast einen Endpoint. Sub-Sekunden Cold- Start mit Snapshots.

RunPod (Serverless)

# handler.py
def handler(event):
    input_data = event["input"]
    # ... compute
    return {"output": ...}

# Dockerfile
FROM python:3.11
RUN pip install runpod transformers torch
COPY handler.py /
CMD ["python", "-u", "/handler.py"]

runpodctl deploy und du hast einen Endpoint. Container-First- Workflow.

Vast.ai

SSH-Login auf eine VM, Container starten, eigenen Endpoint exponieren. Marketplace-Mentalitaet: du suchst eine Instanz im Bid-System (interruptible) oder mietest fix.

Cold-Starts in der Praxis

Anbieter	Empty Cold-Start	Warm Cold-Start	Snapshots
Modal	2-5 s	< 1 s	ja
RunPod Serverless	5-15 s	2-4 s	partiell
Vast.ai	n/a (manuelle Sessions)	n/a	nein

Modal Snapshots sind das beste Feature der drei: dein geladenes Model bleibt im Memory eines snapshotteten Containers, und der naechste Cold-Start ist Sub-Sekunde. Das ist Bezahltheit-Steuerung at its best.

Reliability und Region-Optionen

RunPod

Secure Cloud: Tier-1-Datacenter, professionell, EU-Regionen (Bukarest, Stockholm, Amsterdam)
Community Cloud: Endkunden-Anbieter, billiger, weniger reliable
SLA: 99,9 % Secure Cloud, kein SLA Community
Persistent Storage: Network Volumes, $0,10 / GB / Monat

Hosted und gemanagt auf AWS und GCP unter der Haube
Auto-Region-Selection, manuell wahlbar zwischen US East, US West, EU
SLA: 99,9 % bei Production-Tier
Persistent Storage: Modal Volumes, $0,02 / GB / Monat

Vast.ai

Marketplace: GPU-Hosts sind oft Privatpersonen mit Gaming-PCs
Reliability variabel: 95-99 % je nach Host
Region: weltweit, EU-Auswahl moeglich
Kein SLA: Hosts koennen Maschine ohne Warnung wegnehmen
Persistent Storage: nur via S3-Mount-Workaround

DACH-/DSGVO-Aspekte

Aspekt	RunPod	Modal	Vast.ai
EU-Region waehlbar	ja (Bukarest, Stockholm)	ja (Frankfurt)	partiell
GDPR DPA	ja	ja	nein offiziell
ISO 27001	partiell	ja	nein
HIPAA-faehig	nein	partiell (BAA)	nein
Datenresidenz hart durchsetzbar	ja, mit Region-Lock	ja, mit Region-Lock	nein

Fuer DACH-Geschaeftskunden mit Personendaten: RunPod oder Modal. Vast.ai nur fuer Experimente ohne Personenbezug (z. B. eigene Fine-Tunes, synthetische Daten).

Wann was nehmen

Schnelles Prototyping (Single-User, Fine-Tune, Forschung): Vast.ai. $1,50 / h auf einer A100 80GB ist unschlagbar.

Production-Inference, kontinuierlicher Traffic: RunPod Secure Cloud. Mit Autoscaling und EU-Region: zuverlaessig, billig, GDPR-konform.

Production-Inference, bursty / niedriger Average-Load: Modal. Pay-Per-Second und Snapshots koennen 90 % einsparen gegenueber 24/7-Instanz.

Fine-Tuning-Jobs (mehrere Stunden): RunPod Secure (H100, Persistent Volume) oder Vast.ai (Risiko, aber gut billig).

Compliance-Strenge Workloads: Modal mit EU-Region und BAA-Option oder weiter Azure / AWS.

Hyperscaler-Migration: Wenn du auf AWS p4d/p5 stehst und 70 % sparen willst: RunPod Secure Cloud ist 2026 die beliebteste Migration.

Container-Lock-in und Portabilitaet

Gute Nachricht: alle drei nutzen Docker/OCI-Container. Dein Setup ist grundsaetzlich portierbar.

Unterschiede:

Modal hat eigene Python-Decorator-API. Wenn du Modal-spezifisch schreibst, ist Migration aufwendiger.
RunPod ist generisch (Container + Handler). Migration zu z. B. einem K8s-Cluster auf eigener Hardware ist einfach.
Vast.ai ist purer Docker — am wenigsten Lock-in.

Real-World: Workload-Kosten ueber 4 Anbieter

Konkrete Inferenz-App fuer einen Kunden 2026: Llama-3-70B-Instruct- Inferenz, 8.000 Requests / Tag, durchschnittlich 800 Tokens / Output = ~7 s GPU-Compute pro Request auf H100.

Anbieter / Setup	$ / Tag	$ / Monat
AWS p5.48xlarge On-Demand (immer-an, voll bezahlt)	$2.360	$70.800
AWS p5.48xlarge mit Saving Plan 1y	$1.652	$49.560
AWS p5.48xlarge Spot (typ. 30 % OD)	$710	$21.300
RunPod Secure H100 (1 GPU, 24/7)	$79	$2.397
RunPod Secure H100 mit Autoscale (durchschn. 60 % Idle)	$48	$1.450
RunPod Community H100 (24/7, Risiko)	$45	$1.387
Modal H100 Pay-Per-Sec (8000 × 7s)	$112	$3.360
Vast.ai H100 (24/7 fix-Rent)	$48	$1.440
Specialist API (Together Llama-70B)	$93	$2.790

Lesson Learned: Bei dem Profil ist RunPod Secure mit Autoscale fast 50× billiger als AWS On-Demand und reliabler als Vast.ai.

Setup-Aufwand und Time-to-First-Request

Wir haben einen Standard-FastAPI + Llama-3-Inferenz-Container auf allen drei deployed:

Anbieter	Setup-Zeit	Doku-Qualitaet	Beobachtungen
Modal	~30 min	Hervorragend	Beste Python-DX
RunPod	~1,5 h	Gut	Dockerfile + Handler nötig
Vast.ai	~3 h	Mittel	Manuelle SSH-Steps
AWS p4d	~4 h	OK	EKS + Karpenter Setup
Lambda Labs	~2 h	Gut	SSH + tmux Old-School

Modals Python-Decorator-Modell ist fuer Inferenz wirklich fantastisch. Wenn dein Team Python-first ist und du dich nicht mit Docker-Build-Pipelines aufhalten willst: Modal probieren.

Persistent Storage und Model-Loading

Eines der unterschaetzten Themen: Model-Weights laden. Ein 70B-Modell hat ~140 GB Files. Bei jedem Cold-Start herunterladen ist nicht moeglich.

Anbieter	Persistent-Storage-Optionen	Empfehlung fuer Models
RunPod	Network Volumes, $0,10 / GB / Mo	Mount Volume in Container
Modal	Modal Volumes, $0,02 / GB / Mo	Volume mit Pre-Load
Vast.ai	Lokales Disk, kein managed-Volume	S3-Cache + Local-Disk
AWS	EFS, S3, EBS	S3 + Cache-on-First-Request

Bei Vast.ai der echte Pain: kein Persistent Volume zwischen Sessions. Du musst entweder von S3 caches oder bei jedem Start neu downloaden — 140 GB ueber 10 Gbit/s = ~2 min, also tolerabel.

Spot-/Interruptible-Verhalten

Anbieter	Interruptible-Warning-Zeit	Wie Workload-Sicherung
AWS Spot	2 min	EFS-Mount + Checkpoint
RunPod Spot	30-60 s	Persistent Volume
Vast.ai	inkonsistent (Host-Whim)	externe Storage
Modal	nicht spot	n/a

Wenn du Training-Jobs machst, ist Checkpoint-on-Interruption Pflicht. RunPod Spot mit Persistent Volume ist die guenstigste Variante mit Sicherungs-Pfad.

Faustregeln zum Mitnehmen

Hyperscaler nur, wenn du Service-Integration brauchst. GPU-Pricing der Spezialisten ist ueberlegen.
Production: RunPod Secure Cloud. Reliability + EU + Preis.
Bursty Workload: Modal. Pay-Per-Sec rechnet sich.
Experimente: Vast.ai. Geld sparen, Risiko akzeptieren.
Container nicht zu speziell schreiben. Portabilitaet wert.

Quellen

Pricing-Stand: 14. Mai 2026. GPU-Marktpreise sind Spot-Sensitiv — besonders bei H100/H200 schwanken Preise woechentlich. Aktuelle Preise auf den Provider-Pages.

Geschrieben von

Harbinger Team

Cloud-, Data- und AI-Engineer in DACH. Schreibt seit 2018 über infrastrukturkritische Tech-Entscheidungen — keine Marketing- Folien, sondern echte Trade-offs aus Production-Workloads.

Mehr über Marc hello@harbingerexplorer.com

Hat dir das geholfen?

Jede Woche ein neuer Artikel über DACH-Cloud, Data und AI — direkt in dein Postfach. Kein Spam, kein Marketing-Sprech.

Kein Spam. 1-Klick-Abmeldung. Datenschutz bei Loops.so.

RunPod vs Modal vs Vast.ai 2026: Die GPU-Cloud-Optionen jenseits der Hyperscaler

TL;DR

GPU-Preise: das Wesentliche

Andere GPU-Klassen

Konkrete Rechnung: Inferenz-Endpoint, 100k Requests/Tag

Workflow: Was du in Code schreibst

RunPod (Serverless)

Vast.ai

Cold-Starts in der Praxis

Reliability und Region-Optionen

RunPod

Vast.ai

DACH-/DSGVO-Aspekte

Wann was nehmen

Container-Lock-in und Portabilitaet

Real-World: Workload-Kosten ueber 4 Anbieter

Setup-Aufwand und Time-to-First-Request

Persistent Storage und Model-Loading

Spot-/Interruptible-Verhalten

Faustregeln zum Mitnehmen

Quellen

Weitere Artikel aus AI & LLMs

Vector-DB-Vergleich 2026: Pinecone vs Weaviate vs Qdrant fuer RAG-Workloads

Anthropic vs OpenAI: API-Preise und Cache-Realität (Mai 2026)