La continuità del business? Problemi ed errori da evitare

giancarlo butti clusit

Alta affidabilità (alta dispo­nibilità), disaster recovery e business continuity sono tutti concetti legati alla continuità del business, ma non sono sinonimi

Alta affidabilità (alta dispo­nibilità), indica la capacità di un sistema di resistere a incidenti di portata limitata, quali la rottura di un componente (un disco, un router…) o il malfunzionamento di un impianto (mancanza di alimentazione elettrica) grazie alla ridondanza degli stessi.

TI PIACE QUESTO ARTICOLO?

Iscriviti alla nostra newsletter per essere sempre aggiornato.

Disaster recovery indica una soluzione tecnologica per garantire l’erogazione dei servizi ICT grazie alla disponibilità di un CED alternativo a quello primario.

Business continuity, indica un insieme di soluzioni di natura tecnica e organizzativa per garantire l’erogazione di un servizio in caso di mancanza di sistemi informativi, impianti, edifici, personale, documenti…

Alcuni suggerimenti derivanti dall’esperienza

  • Per un progetto in questo ambito il primo passo è definire un glossario comune fra tutti gli attori (interni ed esterni all’azienda) coinvolti;
  • bisogna definire i tempi di ripristino di un servizio all’utente finale e a ritroso i tempi di ripristino delle varie componenti (ICT e di processo) necessari per garantirlo;
  • per evitare che incidenti legati alla sicurezza fisica (incendio, sabotaggio, danneggiamento, furto…) possano interessare contemporaneamente componenti ridondanti, evitare di posizionarli vicini gli uni agli altri;
  • lo stesso vale per l’ingresso al CED dei vari collegamenti (WAN, alimentazione elettrica…);
  • l’impianto di climatizzazione deve essere non solo ridondato, ma sotto gruppo di continuità, per evitare che in mancanza di alimentazione gli apparati si blocchino surriscaldandosi;
  • bisogna rendere il CED gestibile da remoto, per limitare i danni in caso di irraggiungibilità fisica dello stesso;
  • si deve posizionare il sito di DR a distanza tale da non essere compromesso dallo stesso evento dannoso (terremoto…) che renda indisponibile il sito primario (e le persone che lo gestiscono);
  • si devono utilizzare per la gestione del CED secondario operatori diversi da quelli del sito primario;
  • i test di DR dovrebbero essere fatti da tali operatori utilizzando documentazione costantemente aggiornata, sempre disponibile su vari media, con un livello di dettaglio adeguato e con la corretta sequenza di ripristino dei vari apparati;
  • ogni nuovo componente, applicazione o architettura di un CED deve essere pensata per poter operare anche in DR;
  • le postazioni degli utenti più significativi devono essere sotto gruppo di continuità;
  • devono essere garantiti tutti i servizi che consentono agli utenti di continuare a operare in condizioni di emergenza dalla loro postazione;
  • si deve impedire di avere dati di produzione sulle postazioni utente;
  • i file di applicazioni Opt non devono contenere path assoluti;
  • le applicazioni aperte da un utente devono essere gestibili da remoto.
Leggi anche:  Maticmind, più forza alla cybersecurity con Fortinet

Rischi da evitare

Nel caso di indisponibilità di un edificio (evento catastrofico, guasto temporaneo a impianti, allarme bomba…), si devono prevedere soluzioni quali la disponibilità di locali attrezzati in altro luogo, sufficientemente lontano, ma facilmente raggiungibile.

Nel caso di indisponibilità di personale critico (per uno sciopero prolungato dei mezzi di trasporto, di un evento meteorologico estremo, di un’epidemia…) è necessario disporre di personale alternativo che deve essere preventivamente formato e deve disporre degli stessi strumenti e accessi del personale indisponibile.

Solo test periodici e reali di singole soluzioni e componenti permettono di verificare la bontà delle stesse.

Si corre altrimenti il rischio che:

  • componenti inutilizzati per anni (la valvola del carburante del gruppo di continuità, che opera solo quando il livello di carburante scende…) non funzionino nelle reali emergenze;
  • che apparati, applicazioni, file o documenti indispensabili non siano disponibili o non funzionino in condizioni di emergenza;
  • che il processo di allertamento, di comunicazione e la catena di comando non operino correttamente;
  • che il personale non sia adeguatamente formato.

Giancarlo Butti, auditor e docente di CLUSIT