Question 1

H100 vs A100 — wann lohnt der Preis-Sprung?

Accepted Answer

H100 ist bei FP8 / FP16 Training ca. 2-3x schneller als A100. Wenn dein Training 100h auf 8x A100 dauert, schaffst du es auf 8x H100 in 35-50h. Bei AWS-Listenpreisen kostet ein H100-Node ca. 3x mehr pro Stunde — Break-Even ist also bei 3x Speedup. Realitaet: bei Transformer-Training mit FP8 erreichst du das oft, bei klassischem CV-Training mit FP32 selten. Faustregel: Pre-Training Frontier-Modell → H100, Standard-Fine-Tuning → A100 reicht.

Question 2

Spot-Pricing: Checkpointing in der Praxis

Accepted Answer

Spot-GPUs sind 50-70% billiger, aber Eviction-Notice ist 2 Minuten. Ohne Resume-Logik verlierst du den kompletten Run. Praxis: Checkpoint jede 30 Minuten auf S3 (bei AWS), nutze PyTorch Lightning oder DeepSpeed Save-Resume. Plan 20% Overhead in Total-Hours ein fuer Restart-Penalty. Spot rentiert sich ab 5h Trainings-Dauer — bei kurzen Inference-Tests reicht On-Demand.

Question 3

Multi-Node Training: AWS vs CoreWeave

Accepted Answer

Bei Multi-Node (>1 Maschine via InfiniBand) zaehlt zwei Sachen: Inter-Node-Latenz und Capacity. AWS p5 hat EFA + InfiniBand bei 3200 Gbps, aber Capacity-Reservations meist Pflicht. CoreWeave HGX hat dedicated InfiniBand und groessere Reserved-Slots fuer Mittelstands-Workloads. Lambda Labs hat das in einigen Regionen, aber oft Capacity-Constraint. Faustregel: <8 Nodes → AWS oder Lambda. 8-64 Nodes → CoreWeave. >64 Nodes → AWS mit Long-Term-Reserved.

Question 4

Wann reicht Hetzner-RTX-4090?

Accepted Answer

RTX 4090 hat 24 GB VRAM — genug fuer Llama-3-8B-Fine-Tuning mit Lora, Bert-Style-Modelle bis 1B Param. Kosten Hetzner Dedicated: ca. 400 Euro pro Monat = 0.55 Euro pro Stunde. Vergleichbar mit RunPod Community L40S bei deutlich besserer Reliability (deutsches RZ, kein Marketplace-Risiko). Nicht offiziell als ML-Hardware vermarktet, aber fuer Indie-Fine-Tuning sehr beliebt. Limit: 24 GB VRAM, kein NVLink — kein Multi-GPU-Training.

Question 5

Was bedeutet 'Marketplace' bei Vast.ai und RunPod Community?

Accepted Answer

Beides sind Marktplaetze, wo Private-Hosts und kleine Datacenter ihre Hardware verkaufen. Vast.ai ist das Open-Marketplace-Modell, RunPod Community ist kuratierte Hobby-Hosts. Beide haben kein SLA, der Host kann jederzeit die Maschine zurueckziehen oder ausschalten. Plus: Public-Network — deine Trainings-Daten gehen ueber unverschluesseltes Inter-Datacenter-Netz. Fuer Hobby/Lernen super-billig, fuer Production / Compliance-Daten ein No-Go.

Question 6

Sind die Preise mit oder ohne Cold-Storage und Egress?

Accepted Answer

Ohne. GPU-Hourly-Rates rechnen reine Compute. Realistisch kommen 10-30% drauf fuer: S3-Storage fuer Checkpoints (vor allem bei Spot), Egress fuer Daten-Download zum Training (bei AWS 0.09 USD/GB), Networking zwischen Nodes. Bei sehr grossen Trainings (>1 PB Dataset) kann Egress mehr kosten als die GPU-Zeit.

Anbieter	$/h	Total €	Spot/Rel
RunPod CommarketplaceBEST 8× Node · 1 GPU/Node · 80 GB · kein SLA · Host-Variabilitaet hoch	$15.12	2.782 €	—
Vast.aimarketplace 8× Node · 1 GPU/Node · 80 GB · kein SLA · Host-Variabilitaet hoch	$20.00	3.680 €	—
Lambda H100specialist 1× Node · 8 GPU/Node · 80 GB	$24.80	4.563 €	—
RunPod Secspecialist 8× Node · 1 GPU/Node · 80 GB	$26.32	4.843 €	—
CoreWeavespecialist 1× Node · 8 GPU/Node · 80 GB	$48.24	8.876 €	—
GCP H100hyperscaler 1× Node · 8 GPU/Node · 80 GB	$88.49	16.282 €	—
Azure H100hyperscaler 1× Node · 8 GPU/Node · 80 GB	$95.00	17.480 €	—
AWS p5hyperscaler 1× Node · 8 GPU/Node · 80 GB	$98.32	18.091 €	—

ML-Training-GPU-Rechner: was kostet dein Run wirklich?

15.309 €

H100 vs A100 — wann lohnt der Preis-Sprung

Spot-Pricing: Checkpointing in der Praxis

Multi-Node Training: AWS vs On-Prem-CoreWeave

Wann Hetzner-RTX-4090 reicht

Versteckte Kosten ueber den GPU-Hourly-Rate

Haeufige Fragen

Weiter rechnen

LLM-API-Preisrechner

Cloud-VM-Vergleich

Object-Storage-Rechner

Egress-Rechner

Jeden Freitag ein neuer Rechner oder Vergleich