Future{hacks}: KI-Assistenten ohne Cloud-Leine: Was Self-Hosting 2026 verändert
Outlook antwortet nicht mehr. Microsoft 365 zeigt Fehlerseiten. Über 50.000 Nutzer melden auf Downdetector Störungen. Für die meisten Teams bedeutet das: E-Mail weg, Kalender blockiert, Adminportale tot. Drei Stunden lang. Für Teams mit selbst gehosteten KI-Assistenten lief der Betrieb weiter: Rückfragen im Chat, Standardbestätigungen raus, Protokolle geschrieben. Kein Spektakel, aber genau der Unterschied zwischen Stillstand und Kontinuität.
Der Assistent bleibt, auch wenn die Cloud fällt
08:31 Uhr. Im Einkauf liegt eine Bestellung über 18.900 Euro. Ab 15.000 Euro braucht es die zweite Freigabe. 08:33 Uhr. Der Assistent erkennt die Schwelle, öffnet im Teamchat die Rückfrage an die Budgetverantwortliche und zeigt zwei Optionen an: Freigeben mit Kostenstelle 4711 oder zurück an den Einkauf. 08:37 Uhr. Die Freigabe wird erteilt.
Der Assistent dokumentiert Begründung und Betrag in der Bestellung, informiert den Lieferanten und schreibt den Nachweis ins Journal. Dieser Ablauf funktioniert, weil der Assistent dort arbeitet, wo ohnehin gearbeitet wird: Posteingang, Kalender, Teamchat.
Er liest Kontext, prüft Regeln und schlägt eine Entscheidung vor. Entscheiden tut weiterhin eine Person. Jeder Schritt bekommt Zeitstempel, Zweck und eine verantwortliche Person. Dieses Journal hält in Audits und sorgt im Alltag für Ruhe, weil klar ist, was passiert ist und warum. Hinter der Oberfläche läuft ein Modell, dessen Betrieb und Update-Tempo das Team selbst steuert.
Der Wiener Weg: Moltbot (früher Clawdbot) als Beleg
Peter Steinberger, in Wien ansässiger Entwickler und Gründer von PSPDFKit, hat genau diese Unabhängigkeit gebaut. Seit über einem Jahrzehnt entwickelt er Tools für Dokumenten-Workflows und wollte einen KI-Assistenten, der nicht bei jedem Cloud-Ausfall schweigt. Das Ergebnis ist Moltbot: Eine Open-Source-Lösung, die auf eigener Infrastruktur läuft und gängige Messenger wie WhatsApp, Telegram oder Slack mit konkreten Workflows verbindet.
MacStories beschreibt anschaulich, wie der Assistent über Messenger als Oberfläche dient, während die Wahl des Modells frei bleibt. Das Modell ist austauschbar, der Betrieb liegt im eigenen Haus, die Daten verlassen nie die eigene Kontrolle. Wer einen schnellen Beleg braucht, dass Chat-Workflows mehr sind als eine Demo, findet dort Anschauung und funktionierenden Code.
Warum Self-Hosting jetzt zählt
Self-Hosting 2026 ist keine Nische mehr, sondern strategische Notwendigkeit. Ausfälle großer Dienste erinnern regelmäßig daran, wie dünn eine Versorgung über nur einen Anbieter ist. Der Microsoft-Vorfall vom 22. Januar war kein Einzelfall. Laut Microsoft-Statusseite gab es 2025 insgesamt 47 dokumentierte Service-Unterbrechungen bei Microsoft 365. Ein selbst betriebener Assistent wirkt wie ein Sicherheitsgurt: Rückfragen laufen weiter im Chat, Standardbestätigungen gehen raus, Protokolle entstehen, auch wenn ein externer Dienst hakt.
Der Unterschied zwischen Spielerei und Betrieb
Self-Hosting funktioniert, wenn drei Prinzipien stimmen:
Identität und Rechte zuerst: Wer darf Bestellungen freigeben, wer darf versenden, wer bestätigt heikle Schritte? Sensible Aktionen nur nach Rückfrage, kritische Schritte im Zwei-Augen-Prinzip. Kein Chatbot bekommt Blanko-Vollmacht, sondern arbeitet als verlängerter Arm mit klaren Grenzen.
Nachvollziehbarkeit statt Schatten-IT: Jede Aktion erhält einen Journal-Eintrag mit Zeitstempel, Zweck und Quelle. So bleibt nachvollziehbar, was in der Stunde wirklich passiert ist, auch Monate später im Audit. Das Journal lebt auf eigener Infrastruktur, synchronisiert sich automatisch und ist unveränderlich. Wenn externe Systeme haken, schreibt der Assistent lokal weiter.
Klare Haftung: Standardfälle haben Vorlagen, Eskalationspfade sind definiert, Rollback ist so leicht wie das Ausrollen. Der Assistent ist die Oberfläche, die Regeln liegen darunter: versioniert, getestet und mit klaren Verantwortlichkeiten. Wenn etwas schiefgeht, ist sofort klar: Lag es am Modell, an der Regel oder an der Eingabe?
Recovery zuerst denken
Wer Self-Hosting ernst meint, plant zuerst den schlechten Tag. Fünf Mechanismen machen den Unterschied zwischen Ausfall und Unannehmlichkeit.
Ein zweiter Kommunikationskanal bleibt unabhängig erreichbar – etwa ein alternativer Chat oder ein reservierter Notfall-Space, der nicht am Primäranbieter hängt. Wenn Slack ausfällt, läuft Telegram weiter. Es gibt einen kurzen Offline-Pfad für Freigaben: Vorlagen liegen lokal vor, Entscheidungen werden nachgetragen, sobald der Primärdienst wieder steht. Ein Zweitpostfach oder eine weitergeleitete Adresse fängt Eingang und Termine ab, damit Ketten nicht reißen.
Das Journal lebt auf eigener Infrastruktur und schreibt auch dann weiter, wenn externe Systeme haken – Synchronisation erfolgt automatisch, sobald die Verbindung steht. Kritische Rollen haben einen zweiten, geprüften Weg zur Bestätigung, damit Entscheidungen nicht an einem einzigen Login hängen. So entsteht keine Heldengeschichte, sondern ein ruhiger Betrieb, der Spitzen dämpft und Abläufe zusammenhält.
Der kleinste sinnvolle Start
Ein Chatkanal, zwei reale Workflows, eine Woche Zeit – mehr braucht es nicht für den ersten Beweis.
Fälle definieren, die wirklich wehtun: Nicht „alle E-Mails zusammenfassen“, sondern: „Bestellungen über 15.000 Euro freigeben“ oder „Support-Tickets nach Dringlichkeit sortieren und an die richtige Person routen“. Konkrete Workflows, bei denen Verzögerung messbar kostet.
Neutrale Schnittstelle und Promptvertrag: Eine Abstraktionsschicht aufsetzen, die mit verschiedenen Modellen sprechen kann – OpenAI-kompatibles Protokoll ist der De-facto-Standard. Den Promptvertrag schreiben: Systemhinweise, Rollen, erwartete Funktionen (JSON-Schema für Tool Calls) und klares Ausgabeformat. Alles in Git dokumentiert und versioniert.
Parallel testen, doppelt bewerten: Ein offenes Modell und ein geschlossenes mit zehn echten Anfragen aus dem Alltag testen. Zwei Personen bewerten unabhängig, Qualität auf Skala 1-5, Durchschnitt bilden. Latenz messen, Kosten pro Antwort ausrechnen. Dann entscheiden, nicht diskutieren.
Sicherheitsleitplanken scharf schalten: Erst mit 5% Traffic starten, 24 Stunden Metriken beobachten, bei Schwellwert-Überschreitung automatisch zurückrollen. Journal prüfen: Sind alle Aktionen dokumentiert? Stimmen die Timestamps? Sind Verantwortlichkeiten klar?
Mit kleiner Gruppe live gehen: Fünf bis zehn Personen, die den Workflow täglich nutzen. Metriken in den Wochenreport heben: Wie viele Anfragen, wie viele Freigaben, wie viele Rollbacks. Feedback direkt umsetzen. Wenn es nach zwei Wochen stabil läuft, schrittweise erweitern.
Unser Future{hacks} Fazit
Self-Hosting wird 2026 erwachsen. Nicht weil alles lokal automatisch besser wäre, sondern weil Kontrolle, Nachweis und Wechseloptionen zusammenkommen. Große Ausfälle wie der Microsoft-Vorfall vom 22. Januar zeigen, wie schnell eine Versorgung über nur einen Anbieter stillsteht. Ein Assistent im eigenen Betrieb hält Wege offen, auch wenn externe Dienste haken.
Projekte wie Moltbot aus Wien beweisen: Die Werkzeuge sind da, die Frontends funktionieren, der Betrieb ist planbar. Wer jetzt eine neutrale Schnittstelle baut, einen Promptvertrag schreibt und Recovery zuerst denkt, holt den Assistenten aus der Demo in den Alltag. Das ist keine Wette auf einen Hype, das ist eine Entscheidung, die nächste Woche noch trägt – auch wenn die Cloud mal nicht will.
Markus Kirchmaier ist Prokurist & Partner bei LEAN-CODERS und beschäftigt sich seit Jahren intensiv mit dem IT-Arbeitsmarkt sowie modernen IT-Systemen und technologischen Entwicklungen. Hier geht es zu den anderen Beiträgen aus der Future{hacks}-Reihe.