KI-Infrastruktur für Mittelstand: GPU, Cloud oder API?

Der Infrastruktur-Irrtum der KMU Geld kostet

Wenn Unternehmen anfangen sich mit KI zu beschäftigen, kommen schnell Fragen nach Hardware: Brauchen wir einen eigenen Server? Müssen wir GPUs kaufen? Wie viel Rechenleistung benötigt ein KI-Modell? Diese Fragen sind verständlich — aber sie gehen am Thema vorbei. Für die meisten KI-Anwendungen die im Mittelstand sinnvoll sind, brauchen Sie keine eigene Infrastruktur. Sie brauchen einen API-Key und eine Kreditkarte.

Der Grund für diesen Irrtum liegt im Medienbild von KI: Berichte über Nvidia-Aktien, Milliarden-Investments in Rechenzentren und GPU-Engpässe erzeugen das Bild dass KI eine Ressourcenfrage ist. Das stimmt — aber nur für die Unternehmen die KI-Modelle trainieren oder für Millionen Nutzer betreiben. Wenn Sie KI nutzen anstatt KI bauen, sieht die Rechnung fundamental anders aus.

Dieser Artikel erklärt die drei Infrastrukturoptionen mit echten Kostenzahlen, zeigt wann sich welche Variante lohnt und räumt mit dem teuersten Irrtum der KI-Einführung auf — dem Kauf von Hardware die dann zu 90% ungenutzt ist.

Die drei Infrastrukturoptionen im Vergleich

Option 1 — Cloud-KI-APIs: Sie rufen das Modell über eine Programmierschnittstelle auf, zahlen pro genutzter Anfrage, keine eigene Hardware, keine Wartung. OpenAI, Anthropic (Claude), Google (Gemini) bieten das an. Kosten für 1.000 Textanfragen mittlerer Länge: 0,50 bis 3 Euro, je nach Modell. Das ist die richtige Option für 95% der Mittelstandsanwendungen — Chatbots, Content-Generierung, Dokumentenverarbeitung, Analyse.

Option 2 — Cloud-GPUs (pay-per-use): Sie mieten GPU-Rechenleistung stündlich bei AWS (p3/p4-Instanzen), Azure (NC-Serie), Google Cloud (A100-Instanzen) oder günstigeren Anbietern wie Vast.ai oder RunPod. Sinnvoll wenn Sie eigene Modelle fine-tunen oder mit großen Datenmengen experimentieren möchten. Kosten: 1–8 Euro pro Stunde für eine A100-GPU. Für gelegentliche Experimente völlig ausreichend — Sie zahlen nur was Sie nutzen.

Option 3 — On-Premise GPU-Hardware: Sie kaufen eigene Server mit Nvidia-GPUs (A100: ca. 25.000 Euro, H100: ca. 35.000 Euro pro Karte), betreiben diese im eigenen Rechenzentrum oder Serverraum. Volle Kontrolle über Daten, keine laufenden Cloud-Kosten nach dem Kauf, aber: hohe Investition, Stromkosten, Wartung, Kühlungsaufwand und das Risiko technischer Veralterung. Sinnvoll nur bei dauerhafter hoher Auslastung und strengen Datenschutzanforderungen.

Wann welche Infrastruktur die richtige Wahl ist

Cloud-API (OpenAI, Claude, Gemini): Für Chatbots, Content, Analyse — kein Budget für Hardware, schneller Start, keine IT-Abteilung nötig
Cloud-GPU mietweise (Vast.ai, RunPod): Für Experimente mit eigenen Modellen, Fine-Tuning, Einmal-Projekte — flexibel und günstig
Cloud-GPU Hyperscaler (AWS, Azure, GCP): Für produktive Anwendungen die skalieren müssen und SLA benötigen
On-Premise GPU-Server: Nur wenn täglich mehrere Stunden GPU-Bedarf UND Datenschutzanforderungen die Cloud ausschließen
Lokale CPU-Inferenz (Ollama, LM Studio): Für sensible Daten, kleine Modelle (7B–13B Parameter), Entwickler-Umgebungen
Hybrid: Cloud-API für Standard, On-Premise für sensible Daten — der pragmatische Mittelweg für regulierte Branchen
SaaS-KI-Tools (Jasper, Copy.ai, etc.): Wenn keine technische Integration nötig ist — höchste Einstiegshürde, niedrigstes technisches Risiko

Training vs. Inferenz: Der Unterschied den viele nicht kennen

Training ist der Prozess bei dem ein KI-Modell aus Millionen oder Milliarden Datenpunkten lernt und seine Parameter anpasst. Das ist extrem rechenintensiv: Das Training von GPT-4 kostete geschätzte 50–100 Millionen Euro an Rechenzeit. Llama 3 (Meta) benötigte tausende GPUs über Wochen. Das ist kein Mittelstandsprojekt — das ist nicht mal ein Großunternehmensprojekt.

Inferenz ist der Betrieb eines bereits trainierten Modells: Sie geben einen Text ein, das Modell antwortet. Das ist um Größenordnungen günstiger. Eine Anfrage an Claude oder GPT-4 kostet Bruchteile eines Cent. Hundert Anfragen am Tag kosten Sie keinen Kaffee. Das ist der Bereich in dem Mittelständler arbeiten — und hier reicht eine Cloud-API vollständig.

Fine-Tuning liegt dazwischen: Sie nehmen ein bestehendes, bereits trainiertes Modell und trainieren es auf Ihren spezifischen Daten weiter — zum Beispiel auf Ihren Produktkatalog, Ihre Unternehmenssprache oder branchenspezifische Terminologie. Das kostet einige hundert bis einige tausend Euro Rechenzeit, einmalig. Noch günstiger ist RAG (Retrieval Augmented Generation): Das Modell wird nicht verändert, sondern erhält bei jeder Anfrage relevante Dokumente als Kontext mitgeliefert. Das reicht in den meisten Fällen aus und ist ohne GPU-Infrastruktur umsetzbar.

Infrastrukturentscheidung in 5 Schritten

Anwendungsfall definieren
Was soll die KI konkret tun? Texte schreiben, Fragen beantworten, Dokumente analysieren, Bilder erkennen? Die Antwort bestimmt welche Modelltypen und Infrastruktur in Frage kommen. Ohne klaren Use Case ist jede Infrastrukturentscheidung verfrüht.
Datenschutz-Anforderungen klären
Welche Daten fließen in die KI? Öffentliche Informationen und anonymisierte Texte können problemlos an Cloud-APIs gesendet werden. Personenbezogene Daten, Gesundheitsdaten oder Betriebsgeheimnisse erfordern eine DSGVO-konforme Lösung — entweder europäische Cloud-Anbieter mit AV-Vertrag oder lokale Infrastruktur.
Volumen schätzen
Wie viele Anfragen werden täglich erwartet? Bis 10.000 Anfragen täglich sind Cloud-APIs fast immer günstiger als eigene Hardware. Erst bei dauerhaft hohem Volumen und hoher Auslastung kann eigene Hardware wirtschaftlich werden — rechnen Sie durch bevor Sie kaufen.
Mit Cloud-API starten
Starten Sie immer mit der günstigsten und schnellsten Option: Cloud-API. Testen Sie ob die Qualität Ihren Anforderungen entspricht, messen Sie die tatsächlichen Kosten bei Ihrem Nutzungsvolumen, identifizieren Sie Datenschutzprobleme. Erst wenn die Cloud-API messbar nicht ausreicht, wechseln Sie.
Skalierungspfad definieren
Entscheiden Sie nicht einmalig und endgültig. KI-Infrastruktur entwickelt sich schnell — Modelle werden günstiger, leistungsfähiger, verfügbarer. Planen Sie in 12-Monats-Zyklen: Was reicht heute? Was brauchen wir in einem Jahr wenn die Nutzung gestiegen ist? Flexibilität ist wertvoller als die optimale Entscheidung heute.

Der GPU-Kauf Irrtum — ein konkretes Beispiel

Ein mittelständisches Logistikunternehmen kaufte 2023 zwei Nvidia A100-Karten für 50.000 Euro um KI-Modelle lokal zu betreiben. Nach 12 Monaten lag die durchschnittliche Auslastung bei 8%. Die gleichen Anwendungen hätten über Cloud-APIs 2.400 Euro pro Jahr gekostet — der Payback des Hardware-Kaufs wäre erst nach 20 Jahren erreicht. Kaufen Sie Hardware nur wenn Sie die Auslastungs-Kalkulation schwarz auf weiß gemacht haben.

INREMA-Perspektive: Infrastruktur folgt dem Use Case

Kein Mittelständler braucht eigene GPU-Server um KI sinnvoll einzusetzen. INREMA empfiehlt immer den gleichen Weg: Cloud-API zuerst, messen, entscheiden. Wer diesen Weg überspringt und direkt Hardware kauft, zahlt für die Lektion meistens sechsstellig.

Kostenloser Einstieg ohne Risiko

OpenAI, Anthropic und Google bieten alle kostenloses API-Guthaben zum Testen an. Nutzen Sie das für einen echten Pilot mit Ihren Daten und Anwendungsfällen. Nach 4 Wochen wissen Sie was die KI-Nutzung in Ihrem Betrieb monatlich kostet — ohne Hardware-Risiko und ohne langfristige Bindung.

Zusammenfassung

Für 95% der Mittelstandsanwendungen reichen Cloud-KI-APIs — ohne eigene Hardware, ohne GPU-Investition
Training ist kein KMU-Thema: Fine-Tuning und RAG sind die kosteneffizienten Alternativen
Hardware kaufen erst nach sorgfältiger Auslastungskalkulation — Cloud-API ist fast immer günstiger bis zu sehr hohem Volumen

KI-Infrastruktur: Was Unternehmen wirklich brauchen — und was sie sich sparen können

Der Infrastruktur-Irrtum der KMU Geld kostet

Die drei Infrastrukturoptionen im Vergleich

Wann welche Infrastruktur die richtige Wahl ist

Training vs. Inferenz: Der Unterschied den viele nicht kennen

Infrastrukturentscheidung in 5 Schritten

Der GPU-Kauf Irrtum — ein konkretes Beispiel

INREMA-Perspektive: Infrastruktur folgt dem Use Case

Kostenloser Einstieg ohne Risiko

Häufige Fragen

Haben Sie weitere Fragen?