AI & LLMs

RunPod vs Modal vs Vast.ai 2026: Die GPU-Cloud-Optionen jenseits der Hyperscaler

H100, A100, L40S — was kosten GPUs bei RunPod, Modal und Vast.ai wirklich? Container-Workflow, Cold-Starts und wo der Lock-in beisst.

Harbinger Team14. Mai 202610 Min. LesezeitAktualisiert 14.5.2026
  • runpod
  • modal
  • vast-ai
  • gpu
  • inference
  • ai-infrastructure
  • pricing
Inhaltsverzeichnis23 Abschnitte

Wer 2026 GPU-Compute fuer ML-Inferenz oder Fine-Tuning braucht und nicht in AWS, GCP oder Azure festklebt, hat drei ernsthafte Alternative: RunPod, Modal und Vast.ai. Alle drei verkaufen GPUs guenstiger als die Hyperscaler — auf unterschiedliche Art und mit unterschiedlichem Lock-in.

Hier die Aufstellung mit GPU-Preisen, Workflows und der echten DACH-relevanten Frage: wo darf ich was hosten. Stand: 14. Mai 2026.

TL;DR

  • RunPod ist die Mitte. Containers, Persistent Storage, Serverless-Endpoints, anstaendige Region-Wahl in EU.
  • Modal ist die Premium-Variante. Hervorragende Python-DX, zero Cold-Start mit Snapshots, hoeher gepreist.
  • Vast.ai ist der Marketplace. Konsumenten-PCs als GPU-Hosts, bis zu 80 % billiger, aber inkonsistent.
  • Hyperscaler-Vergleich: RunPod / Modal sind 30-60 % billiger als AWS p4d / GCP A2 / Azure NDv4.
  • Faustregel: Prototyping → Vast.ai. Production-Inference → RunPod oder Modal. Training-Jobs mit Sicherung → RunPod.

GPU-Preise: das Wesentliche

H100 80GB Instanzen, On-Demand, Mai 2026:

AnbieterH100 80GB / hRegion EUSpot/Interruptible
AWS p5.48xlarge (8× H100)$98,32 / h (~$12,29 / GPU)eu-central-1bis ~70 % off
GCP A3-highgpu-8g$88,49 / h (~$11,06 / GPU)europe-west4bis ~80 % off
Azure NDv5 (H100)$98 / h ($12,25 / GPU)West Europebis ~70 % off
RunPod Secure Cloud H100$3,29 / hEU-RomaniaSpot $1,99 / h
RunPod Community Cloud H100$1,89 / hwechseltn/a
Modal A100 40GB$4,00 / hauton/a
Modal A100 80GB$5,00 / hauton/a
Modal H100 80GB$7,12 / hauton/a
Vast.ai H100 (typ.)$1,80-$2,50 / hglobal, gemischtn/a
Lambda Labs H100$2,99 / hmehreren/a
TogetherAI dedicated$2,12 / hUSn/a

Schock-Erkenntnis: RunPod Secure Cloud ist 3-4× billiger pro GPU als die Hyperscaler. Vast.ai ist nochmal billiger, aber inkonsistenter.

Andere GPU-Klassen

GPURunPod (SC)ModalVast.ai typ.
RTX 4090 24GB$0,79 / h-$0,30-0,50 / h
A40 48GB$0,59 / h-$0,35-0,55 / h
A100 40GB$1,89 / h$4,00 / h$1,00-1,50 / h
A100 80GB$2,39 / h$5,00 / h$1,30-1,80 / h
L40S 48GB$1,49 / h$3,20 / h$0,80-1,20 / h
H100 80GB$3,29 / h$7,12 / h$1,80-2,50 / h
H200 141GB$4,99 / h$9,50 / hpartiell
B200 192GB (neu 2026)$9,99 / h$14,00 / hpartiell

Pricing-Modelle: Modal ist anders

RunPod und Vast.ai: Stuendliche Abrechnung pro Instanz. Wenn du sie nicht abreisst, zahlst du weiter.

Modal: Pay-Per-Second mit Pause-on-Idle. Container faehrt nach Sekunden Inaktivitaet runter, naechster Aufruf bringt ihn zurueck.

Modals Pricing-Komponenten:

KomponentePreis
CPU pro vCPU-Sekunde$0,000038
RAM pro GB-Sekunde$0,0000056
GPU pro Sekunde (z. B. A100 40GB)$0,001111 ($4/h)
Container Image Storage$0,00000556 / GB-Sekunde
Ephemeral Diskinkludiert
Egressgestaffelt, ~$0,09 / GB

Bei kurzen Inferenz-Anfragen (z. B. 2 s Compute) zahlst du bei Modal nur 2 GPU-Sekunden, nicht eine Stunde. Das ist der Killer- Vorteil fuer Endpoints mit niedriger Auslastung.

Konkrete Rechnung: Inferenz-Endpoint, 100k Requests/Tag

Annahme: 100k Requests pro Tag, jeweils 1 s GPU-Compute. Total: 100k × 1 s = 100k GPU-Sekunden = 27,8 GPU-Stunden / Tag = 833 Stunden / Monat.

AnbieterStrategieKosten / Monat
AWS p5.48xlarge On-Demand1 Instanz 24/7 (8× H100)~$72.000
RunPod Secure H100 24/71 GPU permanent$2.397
RunPod Secure H100 + Autoscale833 GPU-Hour$2.741
Modal H100 Pay-Per-Sec100k × 1 s = 27,8 GPU-h × 30 = 833 GPU-h$5.929
Vast.ai H100 24/71 GPU permanent$1.387

Bei kontinuierlichem Use ist RunPod der Sweet-Spot. Vast.ai ist billiger, aber Reliability-Risiko ist real.

Bei bursty Use (10k Requests / Tag) gewinnt Modal dramatisch — du zahlst nur fuer die Sekunden, in denen wirklich gerechnet wird.

Workflow: Was du in Code schreibst

import modal

app = modal.App("my-model")

@app.function(gpu="A100-80GB", image=modal.Image.debian_slim().pip_install("torch", "transformers"))
def predict(text: str) -> str:
    # Modell laden + Vorhersage
    return ...

@app.local_entrypoint()
def main():
    result = predict.remote("Hallo Welt")
    print(result)

modal deploy app.py und du hast einen Endpoint. Sub-Sekunden Cold- Start mit Snapshots.

RunPod (Serverless)

# handler.py
def handler(event):
    input_data = event["input"]
    # ... compute
    return {"output": ...}
# Dockerfile
FROM python:3.11
RUN pip install runpod transformers torch
COPY handler.py /
CMD ["python", "-u", "/handler.py"]

runpodctl deploy und du hast einen Endpoint. Container-First- Workflow.

Vast.ai

SSH-Login auf eine VM, Container starten, eigenen Endpoint exponieren. Marketplace-Mentalitaet: du suchst eine Instanz im Bid-System (interruptible) oder mietest fix.

Cold-Starts in der Praxis

AnbieterEmpty Cold-StartWarm Cold-StartSnapshots
Modal2-5 s< 1 sja
RunPod Serverless5-15 s2-4 spartiell
Vast.ain/a (manuelle Sessions)n/anein

Modal Snapshots sind das beste Feature der drei: dein geladenes Model bleibt im Memory eines snapshotteten Containers, und der naechste Cold-Start ist Sub-Sekunde. Das ist Bezahltheit-Steuerung at its best.

Reliability und Region-Optionen

RunPod

  • Secure Cloud: Tier-1-Datacenter, professionell, EU-Regionen (Bukarest, Stockholm, Amsterdam)
  • Community Cloud: Endkunden-Anbieter, billiger, weniger reliable
  • SLA: 99,9 % Secure Cloud, kein SLA Community
  • Persistent Storage: Network Volumes, $0,10 / GB / Monat
  • Hosted und gemanagt auf AWS und GCP unter der Haube
  • Auto-Region-Selection, manuell wahlbar zwischen US East, US West, EU
  • SLA: 99,9 % bei Production-Tier
  • Persistent Storage: Modal Volumes, $0,02 / GB / Monat

Vast.ai

  • Marketplace: GPU-Hosts sind oft Privatpersonen mit Gaming-PCs
  • Reliability variabel: 95-99 % je nach Host
  • Region: weltweit, EU-Auswahl moeglich
  • Kein SLA: Hosts koennen Maschine ohne Warnung wegnehmen
  • Persistent Storage: nur via S3-Mount-Workaround

DACH-/DSGVO-Aspekte

AspektRunPodModalVast.ai
EU-Region waehlbarja (Bukarest, Stockholm)ja (Frankfurt)partiell
GDPR DPAjajanein offiziell
ISO 27001partielljanein
HIPAA-faehigneinpartiell (BAA)nein
Datenresidenz hart durchsetzbarja, mit Region-Lockja, mit Region-Locknein

Fuer DACH-Geschaeftskunden mit Personendaten: RunPod oder Modal. Vast.ai nur fuer Experimente ohne Personenbezug (z. B. eigene Fine-Tunes, synthetische Daten).

Wann was nehmen

Schnelles Prototyping (Single-User, Fine-Tune, Forschung): Vast.ai. $1,50 / h auf einer A100 80GB ist unschlagbar.

Production-Inference, kontinuierlicher Traffic: RunPod Secure Cloud. Mit Autoscaling und EU-Region: zuverlaessig, billig, GDPR-konform.

Production-Inference, bursty / niedriger Average-Load: Modal. Pay-Per-Second und Snapshots koennen 90 % einsparen gegenueber 24/7-Instanz.

Fine-Tuning-Jobs (mehrere Stunden): RunPod Secure (H100, Persistent Volume) oder Vast.ai (Risiko, aber gut billig).

Compliance-Strenge Workloads: Modal mit EU-Region und BAA-Option oder weiter Azure / AWS.

Hyperscaler-Migration: Wenn du auf AWS p4d/p5 stehst und 70 % sparen willst: RunPod Secure Cloud ist 2026 die beliebteste Migration.

Container-Lock-in und Portabilitaet

Gute Nachricht: alle drei nutzen Docker/OCI-Container. Dein Setup ist grundsaetzlich portierbar.

Unterschiede:

  • Modal hat eigene Python-Decorator-API. Wenn du Modal-spezifisch schreibst, ist Migration aufwendiger.
  • RunPod ist generisch (Container + Handler). Migration zu z. B. einem K8s-Cluster auf eigener Hardware ist einfach.
  • Vast.ai ist purer Docker — am wenigsten Lock-in.

Real-World: Workload-Kosten ueber 4 Anbieter

Konkrete Inferenz-App fuer einen Kunden 2026: Llama-3-70B-Instruct- Inferenz, 8.000 Requests / Tag, durchschnittlich 800 Tokens / Output = ~7 s GPU-Compute pro Request auf H100.

Anbieter / Setup$ / Tag$ / Monat
AWS p5.48xlarge On-Demand (immer-an, voll bezahlt)$2.360$70.800
AWS p5.48xlarge mit Saving Plan 1y$1.652$49.560
AWS p5.48xlarge Spot (typ. 30 % OD)$710$21.300
RunPod Secure H100 (1 GPU, 24/7)$79$2.397
RunPod Secure H100 mit Autoscale (durchschn. 60 % Idle)$48$1.450
RunPod Community H100 (24/7, Risiko)$45$1.387
Modal H100 Pay-Per-Sec (8000 × 7s)$112$3.360
Vast.ai H100 (24/7 fix-Rent)$48$1.440
Specialist API (Together Llama-70B)$93$2.790

Lesson Learned: Bei dem Profil ist RunPod Secure mit Autoscale fast 50× billiger als AWS On-Demand und reliabler als Vast.ai.

Setup-Aufwand und Time-to-First-Request

Wir haben einen Standard-FastAPI + Llama-3-Inferenz-Container auf allen drei deployed:

AnbieterSetup-ZeitDoku-QualitaetBeobachtungen
Modal~30 minHervorragendBeste Python-DX
RunPod~1,5 hGutDockerfile + Handler nötig
Vast.ai~3 hMittelManuelle SSH-Steps
AWS p4d~4 hOKEKS + Karpenter Setup
Lambda Labs~2 hGutSSH + tmux Old-School

Modals Python-Decorator-Modell ist fuer Inferenz wirklich fantastisch. Wenn dein Team Python-first ist und du dich nicht mit Docker-Build-Pipelines aufhalten willst: Modal probieren.

Persistent Storage und Model-Loading

Eines der unterschaetzten Themen: Model-Weights laden. Ein 70B-Modell hat ~140 GB Files. Bei jedem Cold-Start herunterladen ist nicht moeglich.

AnbieterPersistent-Storage-OptionenEmpfehlung fuer Models
RunPodNetwork Volumes, $0,10 / GB / MoMount Volume in Container
ModalModal Volumes, $0,02 / GB / MoVolume mit Pre-Load
Vast.aiLokales Disk, kein managed-VolumeS3-Cache + Local-Disk
AWSEFS, S3, EBSS3 + Cache-on-First-Request

Bei Vast.ai der echte Pain: kein Persistent Volume zwischen Sessions. Du musst entweder von S3 caches oder bei jedem Start neu downloaden — 140 GB ueber 10 Gbit/s = ~2 min, also tolerabel.

Spot-/Interruptible-Verhalten

AnbieterInterruptible-Warning-ZeitWie Workload-Sicherung
AWS Spot2 minEFS-Mount + Checkpoint
RunPod Spot30-60 sPersistent Volume
Vast.aiinkonsistent (Host-Whim)externe Storage
Modalnicht spotn/a

Wenn du Training-Jobs machst, ist Checkpoint-on-Interruption Pflicht. RunPod Spot mit Persistent Volume ist die guenstigste Variante mit Sicherungs-Pfad.

Faustregeln zum Mitnehmen

  1. Hyperscaler nur, wenn du Service-Integration brauchst. GPU-Pricing der Spezialisten ist ueberlegen.
  2. Production: RunPod Secure Cloud. Reliability + EU + Preis.
  3. Bursty Workload: Modal. Pay-Per-Sec rechnet sich.
  4. Experimente: Vast.ai. Geld sparen, Risiko akzeptieren.
  5. Container nicht zu speziell schreiben. Portabilitaet wert.

Quellen

Pricing-Stand: 14. Mai 2026. GPU-Marktpreise sind Spot-Sensitiv — besonders bei H100/H200 schwanken Preise woechentlich. Aktuelle Preise auf den Provider-Pages.

H

Geschrieben von

Harbinger Team

Cloud-, Data- und AI-Engineer in DACH. Schreibt seit 2018 über infrastruktur­kritische Tech-Entscheidungen — keine Marketing- Folien, sondern echte Trade-offs aus Production-Workloads.

Hat dir das geholfen?

Jede Woche ein neuer Artikel über DACH-Cloud, Data und AI — direkt in dein Postfach. Kein Spam, kein Marketing-Sprech.

Kein Spam. 1-Klick-Abmeldung. Datenschutz bei Loops.so.