Rechner · Data & KI

LLM Fine-Tuning Kosten

Was kostet es wirklich, ein Sprachmodell auf eure Daten feinabzustimmen und ein Jahr lang zu betreiben? Vergleicht den Managed-Weg über OpenAI mit einem eigenen Open-Source-Modell auf gemieteter GPU — Training plus monatliche Inferenz, ehrlich gerechnet.

pro Token vs. eigene GPU im Dauerbetrieb·Inferenz ist meist der Kostentreiber·EU-Hosting möglich
live

Gesamtkosten Jahr 1 (günstigster Weg)

459

Training einmalig 207 plus 21 €/Monat Inferenz — über OpenAI (Managed).

14.058 € günstiger als Open-Source auf eigener GPU in Jahr 1

Use-Case

25Mio.

Umfang eures Trainingsdatensatzes (1 Mio. – 1 Mrd.)

3×

Wie oft der Datensatz durchlaufen wird

40Mio.

Token-Durchsatz im laufenden Betrieb pro Monat

Effektive Trainings-Tokens = Trainings-Tokens × Epochen. Inferenz: Annahme 70 % Input / 30 % Output je Anfrage.
OpenAI (Managed)

gpt-4o-mini Fine-Tuning

BEST
459€/Jahr 1
Training 207·Inferenz 21 €/Mon.
75 Mio. Token Training · pro Token abgerechnet

Kein Infra-Betrieb, Abrechnung pro Token. Daten verlassen die EU.

Open-Source auf eigener GPU

Llama/Mistral · LoRA auf A100

#2
14.517€/Jahr 1
Training 10·Inferenz 1.209 €/Mon.
~6,3 GPU-h Training · GPU min. 730 h/Mon. im Betrieb

Volle Datenkontrolle, EU-Hosting möglich. GPU läuft auch im Leerlauf weiter.

Gesamtkosten Jahr 1 im Vergleich

€ · Jahr 1

OpenAI
459
GPU
14.517
Listenpreise/Richtwerte (USD→EUR ≈ 0.92). GPU-Durchsatz, Modellgröße und EU-Compliance verschieben die echte Zahl deutlich — genau das klären wir im Erstgespräch.

KI-Use-Case gefunden? Wir bauen ihn.

AInfach Data setzt KI-Anwendungen auf euren eigenen Daten um — DSGVO-konform, EU-gehostet, mit Quelle statt Raten.

Kostenfreies Erstgespräch

Warum die Inferenz wichtiger ist als das Training

Beim Fine-Tuning starren die meisten auf die Trainingskosten — die sind aber einmalig. Was über ein Jahr ins Geld geht, ist die Inferenz: jede Anfrage, jeden Tag, Monat für Monat. Genau deshalb zeigt dieser Rechner die Gesamtkosten für Jahr 1 als Leitzahl — Training einmalig plus zwölf Monate Betrieb. Verschiebt den Inferenz-Slider, und ihr seht sofort, welcher Weg ab welcher Last kippt.

Der zweite oft unterschätzte Posten taucht in keiner Preis-Tabelle auf: die Aufbereitung der Trainingsdaten. Saubere, beschriftete Beispiele zu erzeugen ist meist mehr Arbeit als das eigentliche Training — und entscheidet stärker über die Qualität als die Wahl zwischen OpenAI und eigener GPU.

Zwei Wege, ein Modell zu betreiben

  • OpenAI Managed. Fine-Tuning und Inferenz laufen pro Token. Kein Infra-Betrieb, schneller Start — ideal bei schwankender oder geringer Last. Daten verlassen jedoch die EU.
  • Open-Source auf eigener GPU. Ein Modell wie Llama oder Mistral, per LoRA/QLoRA auf einer gemieteten Cloud-GPU feinabgestimmt und dann selbst betrieben. Fixe Stundenkosten, volle Datenkontrolle, EU-Hosting möglich — lohnt sich ab solider, gleichmäßiger Auslastung.

Welcher Weg für euren Use-Case der richtige ist — und ob Fine-Tuning überhaupt nötig ist oder ein gutes RAG-Setup reicht — klären wir in 30 Minuten, ehrlich und ohne Buzzword-Bingo.

Häufige Fragen

Wie wird der Trainings-Aufwand berechnet?

Die effektiven Trainings-Tokens ergeben sich aus Trainings-Tokens × Epochen — ein Datensatz mit 25 Mio. Tokens über 3 Epochen sind 75 Mio. verarbeitete Tokens. Bei OpenAI wird das pro Token abgerechnet, beim eigenen Open-Source-Modell ergibt sich daraus die Zahl der GPU-Stunden (Durchsatz der GPU). Es ist eine Orientierung, kein Angebot.

Wann lohnt sich Managed (OpenAI), wann eine eigene GPU?

Faustregel: Bei geringem Token-Durchsatz pro Monat ist die token-basierte Abrechnung (OpenAI) günstiger, weil eine eigene GPU im Dauerbetrieb auch im Leerlauf Geld kostet. Ab hoher, gleichmäßiger Last kippt es Richtung eigener GPU — die fixen Stundenkosten schlagen dann die linear steigende Token-Rechnung. Genau diesen Kipppunkt zeigt der Vergleich.

Sind die Inferenz-Kosten der eigentliche Treiber?

Meistens ja. Das Training ist eine einmalige Investition, aber die Inferenz läuft Monat für Monat — über ein Jahr summiert sie sich schnell auf ein Vielfaches der Trainingskosten. Deshalb ist die HERO-Zahl die Gesamtkosten für Jahr 1: Training einmalig plus zwölf Monate Inferenz. Spielt vor allem am Inferenz-Slider, um den Hebel zu sehen.

Warum spielt Datenschutz bei dieser Entscheidung mit?

Beim Managed-Weg verlassen Trainings- und Inferenzdaten die EU und laufen über einen US-Anbieter — bei personenbezogenen oder sensiblen Daten ein DSGVO-Thema. Ein eigenes Open-Source-Modell (z. B. Llama oder Mistral) lässt sich EU-gehostet betreiben, mit voller Datenkontrolle. Das kann den Ausschlag geben, selbst wenn die reinen Kosten knapp für Managed sprechen.

Was zeigt der Rechner bewusst NICHT?

Den Aufwand für die Aufbereitung der Trainingsdaten, Evaluation und Prompt-Iteration — oft der größte versteckte Posten. Außerdem keine Reservierungs- oder Spot-Rabatte auf GPUs und keine Qualitätsunterschiede zwischen Modellen. Die Zahlen sind Listenpreis-Richtwerte für die Größenordnung, nicht für die Ausschreibung.

Verwandte Rechner

Weiter rechnen