Was effektives Business Continuity Management ausmacht
Wie lange kann es sich eine Organisation leisten, ihren Geschäftsbetrieb ganz oder teilweise einzustellen? Die meisten Unternehmen werden bereits nach wenigen Tagen empfindliche Umsatzeinbußen spüren, die zu einer finanziellen Schieflage führen können. Schlimmstenfalls kann es zu einer Insolvenz kommen, der Geschäftsbetrieb muss eingestellt werden. Vorsorge zu betreiben ist also essentiell, allerdings zeigt die Praxis, dass sich Organisationen dem Thema erst widmen, wenn sie von einer realen Krise betroffen sind, sei es eine Virenattacke, ein DDOS-Angriff oder ein anders gearteter Systemzusammenbruch. Krisen und Katastrophen treten in aller Regel unerwartet ein. Im Roman „Blackout“ werden die Tage nach einem landesweiten Stromausfall in bedrückender Weise dargestellt. Auch wenn ein Roman immer übertreibt und überzeichnet, sollte Risikovorsorge also von jedem Unternehmen rechtzeitig und vor allem dauerhaft betrieben werden. Ein Zwischenfall kommt schneller als man denkt. Einen prominenten Vorfall aus dem vergangenen Jahr bei British Airways habe ich in meinem Blog beschrieben.
Unternehmen sind nicht mehr nur von Strom- und Telefonnetzen abhängig, sondern zunehmend auch von Datennetzwerken wie dem Internet. Auf Ausfälle vorbereitet zu sein und realistische Notfallpläne zur Hand haben, fällt in die Domäne des „Business Continuity Managements“ (BMC).
BCM ist ein ganzheitlicher und unternehmensübergreifender Prozess, um Risiken und Bedrohungen aller Art zu identifizieren, deren Auswirkungen auf die Geschäftsprozesse zu analysieren und geeignete Gegenmaßnahmen festzulegen. Die Geschäftstätigkeit einer Unternehmung soll möglichst unterbrechungsfrei aufrecht erhalten werden können.
BCM bildet die Klammer um weitere betriebliche IT-Prozesse und Funktionen, die in ihrer Gesamtheit den Geschäftsbetrieb auch im Krisen- oder Katastrophenfall sicherstellen sollen.
Die folgende Grafik stellt die Zusammenhänge zwischen den einzelnen Prozessen dar und zeigt die wichtigsten Deliverables.
Service Desk
Der Service Desk (früher oft auch als Help Desk bezeichnet) nimmt im normalen Tagesbetrieb alle Anfragen und Störungsmeldungen von Anwendern entgegen und bildet eine Funktion des Incident Managements. Tickets werden im ITSM-Tool eröffnet und durch die zuständige Fachabteilung bearbeitet. Zu den wichtigsten Deliverables des Service Desks zählen gut dokumentierte Störungstickets, insbes. die Entstörung sollte detailliert beschrieben sein, um den begleitenden und nachfolgenden Support-Prozessen geeigneten Input zu liefern.
Incident Management
Das Incident Management nimmt sich der priorisierten Störungen und "Major Incidents" an, um großflächige Auswirkungen zu vermeiden und den normalen Betrieb schnellstmöglich wieder herzustellen. Die zügige Entstörung steht im Vordergrund, dafür kann auch ein (vorläufiger) Workaround implementiert werden. Entscheidend ist, dass Anwender schnellstmöglich wieder arbeiten können und Geschäftsprozesse wieder funktionieren. Das wichtigste Deliverable ist auch hier eine detaillierte Störungs- und Lösungsbeschreibung. Bei "Major Incidents" sollten die Störungstickets einem strukturierten Review unterzogen werden, um bestimmte Muster oder sich wiederholende Störungen zu erkennen. Diese Erkenntnisse sind der Input für den Problem Management-Prozess.
Problem Management
Das Problem Management nimmt die Erkenntnisse aus der Entstörung auf und versucht, Muster zu erkennen, also gleichartige und sich wiederholende Störungen zu identifizieren. Die zugrundeliegenden Probleme müssen behoben werden, um die Auswirkungen von Incidents zu begrenzen oder zu eliminieren. Methodisch werden Trendanalysen und Root Cause Analysen genutzt, um die tieferliegenden Störungsgründe zu ermitteln.
IT Service Continuity Management
„IT Service Continuity Management“ (ITSCM) ist mehr als ein DR-Konzept, der Prozess hat die kritischen Geschäftsabläufe im Blick und nicht nur mögliche Auszeiten oder IT-Disaster. ITSCM sieht Massnahmen für Wort-Case-Szenarien vor, also konkrete Handlungs-anweisungen für den Fall der Fälle. Präventive Massnahmen wie funktionierende und geprüfte Backup-Mechanismen und Recovery-Optionen sind ebenfalls im Fokus von ITSCM, wie Kommunikationspläne und Notfallabläufe. Für die Bearbeitung einer Notfallsituation werden Rollen und Verantwortlichkeiten klar definiert und zugewiesen. Im ersten Schritt wird, möglichst gemeinsam mit dem Business, die "Business Impact Analyse" (BIA) erstellt.
Business Impact Analyse
Mit Hilfe der BIA werden alle Geschäftsprozesse in einheitlicher Detailtiefe mit den zugehörigen Ressourcen und Abläufen erhoben. Es werden Schadensperioden bewertet und vor dem Hintergrund der maximal tolerierbaren Ausfallzeit Wiederanlaufparameter bestimmt. Dabei muss auch der maximal tolerierbare Datenverlust abgeschätzt werden. Ein möglicher finanzieller Schaden ist zu berücksichtigen, weiterhin sollte der durch einen Sicherheitsvorfall begründete Image- oder Vertrauensverlust kalkuliert werden.
Die einzelnen Geschäftsprozesse werden mit einer Kritikalität im Falle der Nichtverfügbarkeit kategorisiert, es ist sehr wahrscheinlich, dass nicht jeder Geschäftsprozess auch geschäftskritisch ist. So werden die Prozesse zur Gehaltsabrechnung meist nur am Monatsende benötigt. Ein IT-Ausfall zur Mitte des Monats wird für die Gehaltsabrechnung wenig bis gar keine Auswirkungen haben. Wenn jedoch die Gehälter nicht rechtzeitig zum Monatsende überwiesen werden, werden sich die Nachfragen bei HR häufen. Eine umfassende BIA stellt also die Basis für ein effizientes BCM dar.
Notfallkonzeption
Aufbauend auf den Erkenntnissen der BIA und der möglichen Krisenszenarien müssen die notwendige Ressourcen festgelegt werden. Beim Wiederanlauf unterscheidet man fünf Phasen:
- Sofortmaßnahmen
- Wiederanlauf
- Notbetrieb,
- Wiederherstellung Normalbetrieb
- Nachbearbeitung
Alle Maßnahmen werden nach der Betrachtung der Kosten-Nutzen-Analyse in einem Notfallhandbuch festgeschrieben. Eine kommerzielle Bewertung der Maßnahmen sollte in jedem Fall erfolgen, da bestimmte Maßnahmen u.U. sehr teuer werden können. Das Notfallhandbuch sollte mindestens jährlich auf Gültigkeit überprüft werden und an einer zentralen, für alle Verantwortlichen zugänglichen Stelle, abgelegt sein, also z.B. nicht auf einem Netzlaufwerk, das bei einer IT-Störung ebenfalls nicht zur Verfügung stehen könnte.
Krisenmanagement
In der Notfallkonzeption sollten auch die Strukturen und Prozesse definiert werden, um unverzüglich auf eine sich anbahnende Krise reagieren zu können. Rollen und Verantwortlichkeiten für die Bearbeitung des Krisenfalls müssen feststehen und eingeübt ein. So empfiehlt es sich z.B. einen dedizierten Protokollführer zu benennen, der die getroffenen Entscheidungen sowie die zeitlichen Abläufe dokumentiert. Die Einrichtung eines sog. CERT (Computer Emergency Response Team) ist mittlerweile auch in vielen Unternehmen „Best Practice“. Alarmierungs- und Kommunikationswege müssen im Vorfeld festgeschrieben sein. Wer muss wann, wie oft und auf welchem Wege während der Krisenbearbeitung informiert werden? Dies kann auch eine Information an die Presse umfassen, falls z.B. Kundendaten oder Passwörter verloren gegangen sind.
Notfallübungen
Dieser Teil des BCM wird oft vergessen (aus Bequemlichkeit?): Die Notfallverfahren und das Krisenmanagement müssen regelmäßig durch möglichst realistische Übungen überprüft werden. Die Übungen sollten wenigstens einmal jährlich stattfinden. Alle Erkenntnisse aus den Übungen sollten als Lesson Learned in die Notfallkonzeption aufgenommen werden.
Kontinuierliche Verbesserung
Ein effizienter BCM-Prozess sollte durch Übungen (s.o.) und Audits auf seine Wirksamkeit überprüft werden. Schwachstellen und Verbesserungen können so identifiziert werden und in einem kontinuierlichen Verbesserungsprozesses behoben bzw. integriert werden. Als Grundlage kann dabei der Deming-Cycle dienen mit den Elementen Planung (Plan), Umsetzung (Do), Kontrolle (Check) und Verbesserung (Act).