Future{hacks}: Resilienz neu gedacht: Von der Notlösung zum integralen Feature

Am Montag lag ein Teil der Tech-Welt im Koma. Wieder einmal. Eine der größten Cloud-Regionen wankte, und mit ihr stolperten Apps, Assistenten und Bezahldienste rund um den Globus. Es war kein Cyberkrieg, sondern der Worst Case der Infrastruktur: eine profane, unangekündigte Störung. Amazon meldete Probleme in US-EAST-1, dann die Erholung. Der Schmerz blieb bei jenen, die unvorbereitet waren.
Die Statistik ist uninteressant. Wichtig ist nur eine Zahl: Dein Cashflow während der Störung.
Ausfälle passieren. Sie sind der digitale Normalzustand. Die einzige Frage, die zählt: Wie gut fällt dein Unternehmen? Mit Notmodus, der Umsatz sichert? Mit einer klaren Ansage an Kundinnen und Kunden? Oder blickst du in den Abgrund, während dein Team einen panischen „Plan B“ sucht, der nur auf Powerpoint existiert?
Was der Montag wirklich gezeigt hat: Die Single-Point-of-Failure-Falle
Selbst die Giganten sind nicht unfehlbar. Ein regionales Husten genügt, und du merkst, wie stark du an einen einzigen Ort gebunden bist. Das ist kein Fingerzeig auf die Cloud an sich, sondern ein Realitätscheck für alle Architekten, die ihr Kerngeschäft auf einem einzigen, feinen Nagel balancieren.
Der Vorfall hat bewiesen: Abhängigkeit ist ein Betriebsrisiko, kein Feature. Und die meisten „Notfallpläne“ sind im Ernstfall so nützlich wie ein Regenschirm nach dem Tsunami.
Der Plan B des Jahres: Kein Dokument, sondern ein Betriebsdesign
Ein belastbarer Plan B ist kein Dokument fürs Audit, sondern dein digitaler Fallschirm. Er beantwortet drei existenzielle Fragen:
- Was läuft weiter? (Minimum Viable Operations.)
- Womit verdienen wir Geld? (Cashflow-Sicherung.)
- Wie kommunizieren wir? (Vertrauenswahrung.)
Wir reden nicht von dem Backup, sondern von architektonischer Resilienz in drei scharfen Stufen:
Level 1: Die Triage – Weiterfahren auf Sparflamme
Ziel ist Funktionsfähigkeit statt Perfektion. Wenn die Schreib-Funktionalität wackelt, muss Lesen stabil bleiben. Bestellungen landen in einem Puffer statt sofortiger Verarbeitung. Das ist der Not-Modus: Du stellst temporär alle Zusatzfunktionen ab, damit das Wesentliche (der Wert) stabil bleibt. Perfektion ist Luxus. Funktion ist Pflicht.
Level 2: Der Zonen-Split – Widerstand in derselben Cloud
Du kämpfst gegen den klassischen Single-Point-of-Failure. Mehrere Zonen sind Pflicht, zwei Regionen sind das Minimum für alles, was Umsatz oder Betrieb trägt. Wichtig: Replikation ist nicht genug. Der Failover muss geübt sein – inklusive des Rückwegs in den Normalbetrieb. Ein Failover ist keine Taste, es ist ein Runbook.
Level 3: Die Exit-Option – Minimal-Viable-Multi-Cloud
Hier geht es nicht um Ideologie, sondern um gezieltes Hedging. Du musst nicht alles doppeln. Du duplizierst den Not-Kern: Login, Bezahlung, Support-Kontakt, die Status-Seite. Daten und Schlüssel müssen so portabel sein, dass du im Notfall den Anbieter wechseln kannst – oder zumindest wichtige Services auslagern. Das ist der strategische Anker gegen die totale Abhängigkeit.
Der moderne Plan B: 4 Hacks für den Betrieb
Hack #1: Minimum Viable Operations (MVO) definieren
Drei Dinge müssen immer funktionieren, damit Wert entsteht. Im E-Commerce: Authentifizierung, Zahlung, Bestellbestätigung. In einem SaaS-Dienst: Login, Daten lesen, Support erreichen. Alles andere ist optional. MVO ist deine Überlebenslinie.
Hack #2: Ersatzwege vorbereiten
Wenn der Checkout klemmt, braucht es einen zeitversetzten Zahlungslink, eine schlanke Status-Seite oder eine dedizierte Bestell-Hotline. Wenn die Live-API versagt, muss ein Batch-Pfad bereitstehen. Notwege sind keine Provisorien, sondern designte Routen.
Hack #3: Abhängigkeiten auf Diät setzen
DNS, Identität, E-Mail, Zahlungen, Datenbanken. Nimm ein Whiteboard und male nüchtern auf, wo die Kette an einer einzigen Region hängt. Ketten entfernt man, bevor sie reißen.
Hack #4: Kommunikation als Feature
Klare Texte, klare Intervalle, klare Kanäle. Sag, was geht, was nicht geht, wie der Ersatzweg aussieht und wann das nächste Update kommt. „Manche Nutzer sind betroffen“ ist eine Vertrauenskrise. Sei präzise, sei sichtbar.
Der 45-Minuten-Check: Finde deinen wunden Punkt
Hol dein Team zusammen. Whiteboard auf. Vier Fragen beantworten.
- Kritischer Pfad:
Was ist heute der kritische Pfad vom Nutzer bis zu Umsatz oder Service? - Single Point of Failure (SPOF):
Wo hängt dieser Pfad an einer einzigen Region oder einem einzigen Dienst? - Degraded Modes:
Welche degradierten Modi sind sofort aktivierbar? (Lesen, nicht Schreiben?) - Kommunikation:
Wer informiert wann wen? (Namen, Texte, Kanäle.)
Aus diesen vier Antworten entsteht dein Runbook. Nicht andersherum.
Unser Future{hacks} Fazit
Uptime-Ziffern sind Dekoration. Handlungsfähigkeit ist das Produkt.
Der Vorfall vom Montag war keine Ausnahme, sondern die obligatorische Erinnerung. Wer Notbetrieb gestalten kann, übersteht den nächsten Schluckauf ohne Gesichtsverlust und ohne Umsatzeinbußen.
Gewinner trennt nicht die Größe des Providers, sondern die Qualität des Plan B. Wer Portabilität baut, verhandelt Preise aus Stärke statt aus Angst. Das ist der souveräne Teil an der ganzen Geschichte.
Markus Kirchmaier ist Prokurist & Partner bei LEAN-CODERS und beschäftigt sich seit Jahren intensiv mit dem IT-Arbeitsmarkt sowie modernen IT-Systemen und technologischen Entwicklungen. Hier geht es zu den anderen Beiträgen aus der Future{hacks}-Reihe.