Rechner
ML-Training-GPU-Rechner: was kostet dein Run wirklich?
H100, A100, L40S oder RTX 4090. AWS, Azure, GCP, Lambda Labs, CoreWeave, RunPod, Vast.ai, Hetzner — alle nebeneinander. On-Demand, Reserved 1y oder Spot.
Mit RunPod Com sparst du vs. AWS On-Demand
15.309 €
85 % weniger als AWS p5 (18.091 € vs. 2.782 €)
Use-Case
Frontier, NVLink, schnellster Trainings-Throughput
voll, jederzeit verfuegbar
Total-Kosten Training-Run
8 passende Anbieter
| Anbieter | $/h | Total € | Spot/Rel |
|---|---|---|---|
RunPod CommarketplaceBEST 8× Node · 1 GPU/Node · 80 GB
| $15.12 | 2.782 € | — |
Vast.aimarketplace 8× Node · 1 GPU/Node · 80 GB
| $20.00 | 3.680 € | — |
Lambda H100specialist 1× Node · 8 GPU/Node · 80 GB | $24.80 | 4.563 € | — |
RunPod Secspecialist 8× Node · 1 GPU/Node · 80 GB | $26.32 | 4.843 € | — |
CoreWeavespecialist 1× Node · 8 GPU/Node · 80 GB | $48.24 | 8.876 € | — |
GCP H100hyperscaler 1× Node · 8 GPU/Node · 80 GB | $88.49 | 16.282 € | — |
Azure H100hyperscaler 1× Node · 8 GPU/Node · 80 GB | $95.00 | 17.480 € | — |
AWS p5hyperscaler 1× Node · 8 GPU/Node · 80 GB | $98.32 | 18.091 € | — |
Total-Cost · sortiert
H100 vs A100 — wann lohnt der Preis-Sprung
Die Versuchung ist gross, fuer jedes Training-Projekt H100 zu nehmen: Schnellere Tensor-Cores, FP8-Support, Transformer-Engine, doppelter VRAM-Throughput. Aber: H100 ist bei den Hyperscalern ungefaehr drei- mal teurer pro Stunde als A100. Der Speed-Vorteil rentiert sich nur, wenn dein konkretes Training auch wirklich 3x schneller laeuft.
In der Praxis: Transformer-Training mit Mixed-Precision (FP8/BF16) erreicht oft 2.5-3x Speedup, weil die Transformer-Engine FP8-Matmul schiebt. Klassisches CV-Training mit FP32 oder PyTorch ohne Auto-Mixed-Precision (AMP) profitiert kaum. Bei kleinen Modellen (<3B Param) ist der A100 oft sogar einen Tick schneller, weil die H100-Tensor-Cores nicht voll ausgelastet sind.
Spot-Pricing: Checkpointing in der Praxis
Spot-GPUs sind die billigste Variante in der Rechnung — bei AWS spart Spot etwa 60% gegenueber On-Demand. Aber Spot kann jederzeit evicted werden, meist mit 2 Minuten Vorwarnzeit (AWS), bei Vast.ai sogar ohne Vorwarnung. Ohne robusten Resume-Mechanismus verlierst du Stunden bis Tage Trainings-Fortschritt.
Praxis-Checkliste, bevor du Spot anpeilst:
- Checkpoint-Intervall. Standard: alle 30 Minuten auf S3 oder Cloud-Storage. Bei sehr langen Trainings: alle 15 min.
- Resume-Logik testen. Vor Production-Run mindestens einmal manuell killen und Resume-from-Checkpoint laufen lassen.
- Distributed-Training braucht Coordination: wenn ein Node evicted wird, koennen die anderen entweder warten oder den Run abbrechen. Frameworks wie DeepSpeed haben Auto-Recovery.
- Total-Hours-Aufschlag. Plane 15-25% Overhead in die Gesamt-Stunden ein — fuer Restarts, Idle-Zeit beim Checkpoint- Schreiben, Re-Warmup nach Resume.
Multi-Node Training: AWS vs On-Prem-CoreWeave
Bei Single-Node-Trainings (max. 8 GPUs) reicht NVLink innerhalb des Nodes — alle grossen GPU-Cloud-Anbieter haben das. Sobald du Multi-Node trainierst, brauchst du Low-Latency-Inter-Node-Networking. AWS hat das mit Elastic Fabric Adapter (EFA) und InfiniBand bei 3200 Gbps zwischen p5-Instanzen. Azure ND H100 v5 ebenfalls.
CoreWeave hat sich auf das Mid-Range-Multi-Node- Segment spezialisiert — 8 bis 64 Nodes mit dedizierten InfiniBand- Switches, oft mit besseren Preisen als die Hyperscaler bei Reserved- Commitments. Trade-off: weniger Regionen, kein integriertes IAM/VPC-Konzept wie AWS, oft Mindestlaufzeit von 6 Monaten.
RunPod Secure und Lambda Labs unterstuetzen Multi-Node, sind aber bei Verfuegbarkeit unzuverlaessiger — du kannst nicht garantieren, dass 32 Nodes Donnerstag um 9 Uhr zur Verfuegung stehen. Fuer Mid-Range mit flexiblem Timing okay, fuer fixe Deadlines riskant.
Wann Hetzner-RTX-4090 reicht
Es gibt einen unbekannten Geheimtipp im Indie-ML-Bereich: Hetzner verkauft GEX130-Server mit RTX 4090 fuer rund 400 Euro pro Monat — das entspricht einer Hourly-Rate von 0.55 Euro. Vergleichbar mit RunPod Community, aber mit deutschem RZ, ohne Marketplace-Risiko, dedizierter Hardware.
Use-Cases, fuer die das reicht:
- Lora-Fine-Tuning fuer Llama 3 7B / 8B (24 GB VRAM reichen mit 4-bit-Quantisierung)
- Stable Diffusion XL Fine-Tuning (mit Optimizer-State-Offload)
- Bert-Style-Klassifizierungs-Modelle bis 1B Param
- Distillation-Pipelines (Teacher-Modell extern, Student lokal)
- Inference-Server fuer Modelle bis 13B Param
Limits: 24 GB VRAM ist hart, kein NVLink — kein Multi-GPU-Training, keine grossen Foundation-Modelle. RTX 4090 ist offiziell Consumer- Hardware, Hetzner gibt fuer ML keine Support-Garantie. Bei produktiven Pipelines daher Backup-Plan haben.
Versteckte Kosten ueber den GPU-Hourly-Rate
- S3-Storage fuer Checkpoints. Bei AWS-Training kommen schnell 50-200 GB Checkpoints pro Modell zusammen. Vernachlaessigbar in EUR, aber Egress beim Download teurer.
- Daten-Transfer zum Trainings-Cluster. Wenn dein Trainings-Dataset 5 TB hat und du es einmal in den Trainings-VPC kopierst: bei AWS 450 USD Egress, einmalig.
- Inter-AZ-Transfer. Multi-Node ueber AZ-Grenzen hinweg kostet AWS-intern 0.01 USD/GB. Bei NCCL-Allreduce zwischen 8 Nodes mit grossen Modellen kann das spuerbar sein.
- Idle-Time. Wenn dein Trainings-Job fertig ist und die Maschine 4 Stunden idle laeuft, weil dein Cron das Shutdown-Script erst um 6 Uhr morgens triggert — das kostet bei p5 noch mal 400 USD.
Haeufige Fragen
H100 vs A100 — wann lohnt der Preis-Sprung?
H100 ist bei FP8 / FP16 Training ca. 2-3x schneller als A100. Wenn dein Training 100h auf 8x A100 dauert, schaffst du es auf 8x H100 in 35-50h. Bei AWS-Listenpreisen kostet ein H100-Node ca. 3x mehr pro Stunde — Break-Even ist also bei 3x Speedup. Realitaet: bei Transformer-Training mit FP8 erreichst du das oft, bei klassischem CV-Training mit FP32 selten. Faustregel: Pre-Training Frontier-Modell → H100, Standard-Fine-Tuning → A100 reicht.
Spot-Pricing: Checkpointing in der Praxis
Spot-GPUs sind 50-70% billiger, aber Eviction-Notice ist 2 Minuten. Ohne Resume-Logik verlierst du den kompletten Run. Praxis: Checkpoint jede 30 Minuten auf S3 (bei AWS), nutze PyTorch Lightning oder DeepSpeed Save-Resume. Plan 20% Overhead in Total-Hours ein fuer Restart-Penalty. Spot rentiert sich ab 5h Trainings-Dauer — bei kurzen Inference-Tests reicht On-Demand.
Multi-Node Training: AWS vs CoreWeave
Bei Multi-Node (>1 Maschine via InfiniBand) zaehlt zwei Sachen: Inter-Node-Latenz und Capacity. AWS p5 hat EFA + InfiniBand bei 3200 Gbps, aber Capacity-Reservations meist Pflicht. CoreWeave HGX hat dedicated InfiniBand und groessere Reserved-Slots fuer Mittelstands-Workloads. Lambda Labs hat das in einigen Regionen, aber oft Capacity-Constraint. Faustregel: <8 Nodes → AWS oder Lambda. 8-64 Nodes → CoreWeave. >64 Nodes → AWS mit Long-Term-Reserved.
Wann reicht Hetzner-RTX-4090?
RTX 4090 hat 24 GB VRAM — genug fuer Llama-3-8B-Fine-Tuning mit Lora, Bert-Style-Modelle bis 1B Param. Kosten Hetzner Dedicated: ca. 400 Euro pro Monat = 0.55 Euro pro Stunde. Vergleichbar mit RunPod Community L40S bei deutlich besserer Reliability (deutsches RZ, kein Marketplace-Risiko). Nicht offiziell als ML-Hardware vermarktet, aber fuer Indie-Fine-Tuning sehr beliebt. Limit: 24 GB VRAM, kein NVLink — kein Multi-GPU-Training.
Was bedeutet 'Marketplace' bei Vast.ai und RunPod Community?
Beides sind Marktplaetze, wo Private-Hosts und kleine Datacenter ihre Hardware verkaufen. Vast.ai ist das Open-Marketplace-Modell, RunPod Community ist kuratierte Hobby-Hosts. Beide haben kein SLA, der Host kann jederzeit die Maschine zurueckziehen oder ausschalten. Plus: Public-Network — deine Trainings-Daten gehen ueber unverschluesseltes Inter-Datacenter-Netz. Fuer Hobby/Lernen super-billig, fuer Production / Compliance-Daten ein No-Go.
Sind die Preise mit oder ohne Cold-Storage und Egress?
Ohne. GPU-Hourly-Rates rechnen reine Compute. Realistisch kommen 10-30% drauf fuer: S3-Storage fuer Checkpoints (vor allem bei Spot), Egress fuer Daten-Download zum Training (bei AWS 0.09 USD/GB), Networking zwischen Nodes. Bei sehr grossen Trainings (>1 PB Dataset) kann Egress mehr kosten als die GPU-Zeit.
Verwandte Rechner
Weiter rechnen
Newsletter
Jeden Freitag ein neuer Rechner oder Vergleich
Konkrete Zahl, keine 1.500-Woerter-Texte.
Mit der Anmeldung willigst du ein, von AInfach Data (Daten- & KI-Beratungsagentur) Werbe-E-Mails und Preisupdates zu erhalten. Bestätigung per Double-Opt-in, Abmeldung jederzeit mit 1 Klick.
Auch alle Rechner ansehen.