Storage: come gestire l’esplosione dei dati

In un’economia che dipende in modo sempre più forte dalla disponibilità di informazioni e dalle analisi che se ne possono ricavare, lo storage si trasforma in una risorsa preziosa ed essenziale per chiunque, azienda, organizzazione o individuo, debba operare nel mondo del business o semplicemente nel mercato professionale

TI PIACE QUESTO ARTICOLO?

Iscriviti alla nostra newsletter per essere sempre aggiornato.

 

Ormai è ufficiale: le informazioni stanno esplodendo. Per rendersene conto, basta sfogliare un qualsiasi studio di mercato degli ultimi dieci anni. Così, possiamo iniziare rifacendoci a quanto pubblicato di recente da diversi istituti di ricerca, aziende ed enti sul Web, che ci permette di tracciare un quadro abbastanza aggiornato di quale sia stata la dinamica dell’evoluzione delle informazioni in questo periodo. Partiamo innanzi tutto da qualche definizione, che ci aiuti a capire di che numeri andremo a parlare; senza alcuna pretesa di completezza, ci limitiamo a chiarire le grandezze con cui si misurano le capacità di storage oggi: a partire dai petabyte, che sono milioni (in realtà, mega, cioè 1024×1024) di gigabyte, cui fanno seguito gli exabyte (1024 petabyte), gli zettabyte (1024 exabyte) e, infine, gli yotabyte (1024 zettabyte, ovvero circa 1024 byte). Calcolando che un hard disk standard di ultima generazione può contenere all’incirca 300 gigabyte di dati, 1 yotabyte corrisponderebbe al contenuto di 3.000 miliardi di queste unità. In altri termini, 1 yotabyte equivale a 1 milione di miliardi di gigabyte. Per concludere, prendiamo in esame un recente studio di IDC (www.idc.com), secondo cui, solo nel 2011, 1,8 zettabyte (o trilioni di byte) di dati sono stati creati nel mondo. L’aspetto più impressionante della questione è quello relativo alla crescita esponenziale dei dati disponibili: nel 2010, è stata superata per la prima volta la barriera degli 1 zettabyte di dati creati e replicati (per l’esattezza, il numero raggiunto è di 1,2 zettabyte). Dal 2005 (130 exabyte) al 2010, quindi, la quantità di dati disponibili si è decuplicata. Sempre IDC prevede che la quantità totale di dati disponibili crescerà di 50 volte da qui al 2020, spinta dalla diffusione dei sistemi embedded, quali per esempio sensori posti all’interno dei vestiti, oppure dispositivi medici o strutture come gli edifici e i ponti. Infine, mentre il numero complessivo di file crescerà nei prossimi dieci anni di 75 volte (quasi un raddoppio, quindi), il personale dedicato all’IT crescerà solo di 1 volta e mezza: questo implica la necessità di disporre di strumenti di gestione e archiviazione potenti, flessibili e semplici da usare.

Di che numeri stiamo parlando?

Esaminando solo alcuni database di grandi aziende e istituzioni pubbliche Usa, si può già avere un’idea più precisa delle quantità in gioco quando si parla di dati e di storage nel Terzo millennio. Per esempio, il database di At&t (i dati sono riferiti al 2010) conteneva 12 exabyte di informazioni telefoniche, corrispondenti al contenuto di 82 milioni di normali hard disk da 146 gigabyte. Il World Data Center for Climate, invece, gestiva 6 petabyte di dati e 220 terabyte su Web. Si tratta di valori che ovviamente andrebbero rivisti al rialzo, come accennavamo prima: in ogni caso, il solo paragone, fatto sopra, con la capacità di un disco fisso standard dimostra che non basta l’evoluzione tecnologica per soddisfare la fame di dati di cui soffre il mondo: occorre anche un cambiamento di prospettive. In parte, l’evoluzione è già in atto, spinta dalla diffusione delle tecnologie di Cloud computing, che mettono a disposizione “nubi” di server e sistemi di storage virtualizzati e accessibili attraverso Internet da qualsiasi punto della rete, secondo un paradigma che è quello dell’Utility computing. Si tratta di allocare le risorse disponibili in base alle esigenze dei sistemi remoti che le richiedono, un po’ come avviene con l’acqua potabile o l’energia elettrica nelle reti di distribuzione cittadine, nazionali e mondiali. IDC sostiene che, mentre oggi gli investimenti in tecnologia Cloud coprono solamente il 2% del totale speso in IT, nel 2020 circa il 20% delle informazioni transiteranno in un’infrastruttura Cloud gestita da un service provider, cioè saranno elaborate o immagazzinate da sistemi Cloud; circa il 10% di queste, infine, saranno tenute indefinitamente, cioè archiviate all’interno di una Cloud.

Tecnologie e gestione

Spesso nel mondo IT è capitato (e succede tuttora) che gli utenti finali siano convinti che acquistare nuova tecnologia sia la panacea di tutti i mali. Pertanto ovviamente per chi se lo può permettere, un approccio utilizzato spesso è stato quello di acquistare sempre, quasi acriticamente, l’ultima tecnologia disponibile sul mercato, la più aggiornata, aggiungendola in strati successivi a quelle precedenti. Ecco prendere dunque forma quello che è l’incubo peggiore di tutti i responsabili IT: la coesistenza nella stessa infrastruttura di device, tecnologie, policy e software eterogenei, appartenenti a generazioni di prodotto anche molto differenti, che occorre integrare per far sì che i sistemi informativi funzionino a dovere. Tutto quanto finora detto vale a maggior ragione quando le tecnologie di cui si parla sono quelle di storage. Oggi che in cima all’agenda dei manager non c’è più solo la ricerca delle massime prestazioni e della massima produttività, ma anche e soprattutto l’efficienza in termini di investimenti ben mirati agli obiettivi da raggiungere, l’acquisto puro e semplice di tecnologia allo stato dell’arte non è più assolutamente sufficiente. Nel caso dello storage, come spiega un recentissimo studio di Gartner (www.gartner.com), lo strumento più importante per raggiungere l’efficienza è legato alla scelta della corretta soluzione di Storage Management, intesa non tanto come la tecnologia per gestire la configurazione dei sistemi di storage o la loro manutenzione e riparazione, spiega Valdis Filks di Gartner, analista estensore dello studio, quanto come la soluzione di alto livello che è in grado di gestire i processi di asset & capacity planning, e che richiede una «profonda conoscenza delle infrastrutture, della tecnica e delle applicazioni» coinvolte. In altri termini, si tratta di adottare e implementare un vero e proprio sistema di Srm (Storage Resource Management), composto da strumenti e da processi che «aiutano a comprendere la relazione esistente tra applicazioni e storage, utilizzando poi questa informazione per controllare la crescita dello storage stesso». Ciò non toglie che anche alcune nuove tecnologie di storage, quali i dischi Ssd (Solid-state drive), possano giocare un ruolo più o meno importante nell’implementazione di soluzioni vincenti. Nel caso specifico, i drive Ssd si caratterizzano per l’assenza di parti in movimento (quindi maggiore affidabilità, almeno nominale) e per la bassa latenza e la maggiore velocità nell’accesso ai dati. D’altra parte, il costo oggi è molto superiore a quello dei tradizionali dischi, che pertanto rimangono la scelta preferita per l’archiviazione di grandi quantità di dati, come per esempio nelle grandi aziende.

Leggi anche:  Ambienta investe in Officine Maccaferri

Evoluzione del mercato

Molte organizzazioni ritengono di risolvere i propri problemi di archiviazione delle informazioni con il semplice acquisto di maggiore spazio, cioè unità di storage fisico. Si tratta di una tendenza abbastanza comune, che nel corso degli anni ha creato l’accumulo di volumi non ottimizzati, con aree di storage dove i dati sono registrati in modo non efficiente e con notevole spreco di spazio oppure la registrazione degli stessi dati più volte e in siti diversi o, ancora, l’archiviazione di dati inutili e ridondanti. Molti utenti e responsabili IT non si sono resi conto della situazione che stava sfuggendo al controllo, continuando nella pratica di acquistare più risorse di storage invece di ottimizzare quelle già disponibili, magari installando appunto una soluzione gestionale. Infatti, ci rivela ancora lo studio Gartner, meno del 40% delle organizzazioni intervistate (nello scorso mese di marzo) hanno formalizzato l’acquisto di una soluzione di Srm, affidandosi piuttosto ad amministratori umani assunti a tempo pieno (Fte, Full-time equivalent) e dedicati allo storage, scelta che spesso dalle aziende viene ritenuta erroneamente meno costosa. Questo aspetto è legato anche a esperienze negative avute nell’implementare le prime versioni degli applicativi di Srm. Oggi diverse aziende offrono soluzioni Srm complete, spiega ancora Gartner: tra queste citiamo alcune delle maggiori, quali EMC, Hitachi Data Systems, HP, IBM, NetApp e Symantec. Tra le funzioni offerte da questi prodotti sono disponibili reporting, capacity planning, visualizzazione della topologia, provisioning, configurazione dei device e gestione dei problemi e del workflow su tutti i prodotti di storage offerti dagli stessi vendor citati.

Tra le varie tecnologie disponibili oggi per gestire le risorse di storage in modo ottimizzato, Gartner elenca alcune di quelle che stanno incontrando maggior favore, come il Thin Provisioning, la deduplicazione dei dati, i già citati dischi Ssd e il tiering automatico dello storage. Qualche spiegazione: la definizione Thin Provisioning sta a indicare una tecnologia che, attraverso la virtualizzazione delle risorse, rende apparentemente disponibile più spazio di storage di quello che esiste in realtà. Si tratta di un sistema per ottimizzare l’esecuzione delle applicazioni che operano come se avessero a disposizione molto più spazio disco di quello che hanno. La deduplicazione dei dati è una semplice procedura per eliminare i doppioni, ottimizzando così l’occupazione di spazio su disco. Il tiering automatico, infine, si riferisce al monitoraggio dell’accesso ai dati memorizzati, spostandoli sui vari tier o classi di storage (per esempio, dischi veloci piuttosto che nastri magnetici) in base alla frequenza di utilizzo: in pratica, qualcosa di molto simile all’Ilm (Information Lifecycle Management). In ogni caso, chiarisce ancora Gartner, le metriche dimostrano che diversi indicatori chiave di efficienza dello storage stanno migliorando, con l’utilizzo medio passato dal 63% del 2010 al 67% del 2011 e la produttività, intesa come la quantità di storage gestita da un amministratore, è passata da 81 Tb nel 2010 a 126 Tb nel 2011.

L’evoluzione Big Data

Tra le molte evoluzioni che stanno interessando il mercato IT, ce n’è una in particolare che, per le sue implicazioni, coinvolge molte aree contigue, dalla Business Intelligence a, ovviamente, lo storage. Si tratta di quelle soluzioni che ormai sono universalmente note con il nome Big Data: si tratta di sistemi in grado di gestire volumi ingenti di informazioni (nell’ordine dei petabyte o addirittura degli exabyte), anche non strutturate, che non trovano spazio nei tradizionali database relazionali. Secondo IDC, che ha appena pubblicato una ricerca sul tema, la quantità complessiva di informazioni aggregate da dispositivi mobili, social media, stabilimenti, macchinari, ricerca e sviluppo, simulazioni e infrastruttura fisica nel 2011 ha raggiunto il ragguardevole traguardo di 1,8 zettabyte, cioè all’incirca 1,6 trilioni di gigabyte. Prima di addentrarci nei risultati della ricerca e nei suoi riflessi sul mondo dello storage, giova chiarire qual è la definizione data da IDC alle tecnologie Big Data. Si tratta di «una nuova generazione di tecnologie e architetture progettate per estrarre valore economico da grandissimi volumi di una grande varietà di dati, abilitandone la cattura, la discovery e/o l’analisi ad alta velocità». Ciò detto, IDC stima che a livello mondiale il valore complessivo di questo mercato crescerà notevolmente, per passare dai 3,2 miliardi di dollari del 2010 a circa 16,9 miliardi di dollari del 2015. La crescita composta annuale (Cagr, Compound annual growth rate) è perciò del 40% o, come sottolinea IDC, «pari a circa 7 volte quella del mercato ICT nel suo complesso». Si capisce dunque l’estremo interesse per questo mercato anche da chi sviluppa e produce soluzioni di storage, che trarranno notevoli benefici da questa evoluzione, soprattutto se, come rivela ancora IDC, la crescita annuale composta del relativo segmento di mercato nei 5 anni presi in esame (2010-2015) sarà del 61,4%, contro un, tanto per comprendersi, +27,3% dei server e un +34,2% del software. In particolare, secondo Benjamin S. Woo, program vice president, storage systems di IDC, «il significativo tasso di crescita del fatturato è sottolineato dal gran numero di nuovi progetti open source che pilotano gli investimenti in infrastrutture».

Leggi anche:  Altea Federation sigla una partnership strategica con Chequers Capital

Aspetti economici delle scelte tecnologiche

La congiuntura corrente, soprattutto nel mercato ICT, spinge le aziende a investire con molta oculatezza nelle nuove tecnologie, prediligendo quelle che offrono perlomeno una prospettiva di ritorno in tempi rapidi. Anzi, sono molti gli analisti che lamentano come spesso i budget in questo periodo siano gestiti con un occhio più attento alla manutenzione pura e semplice che all’evoluzione delle infrastrutture. Tra gli investimenti su cui le aziende hanno tirato il freno, occorre purtroppo inserire anche la voce “personale”, sia per quanto riguarda nuove assunzioni, sia per la formazione e la crescita professionale di quello già esistente. Dati i numeri di crescita delle informazioni visti precedentemente e le rapidissime evoluzioni cui l’ICT ci ha abituato ormai da alcuni decenni, questi trend stanno causando lo spostamento di molte risorse interne verso l’esterno. Ecco allora crescere e svilupparsi il fenomeno del Cloud anche per lo storage, dove, aiutate dalle tecnologie di virtualizzazione, molte organizzazioni decidono di spostare i propri dati “sulla nuvola”, trasformando, come già avvenuto nel periodo della crescita dell’outsourcing e del facility management, i costi fissi in costi variabili, che pertanto possono essere legati al reale andamento del business. In ogni caso, spiega Gartner, le scelte tecnologiche saranno sempre più legate alle scelte economiche, nel senso che, per esempio, verranno implementate quelle soluzioni di storage che richiedono meno manutenzione, interventi di configurazione e ottimizzazione. Oltre a questo, andranno implementati processi più efficienti che consentano di aumentare la produttività, basandosi su appliance automatizzate, strumenti Srm e cruscotti che consentano di ottimizzare la gestione delle risorse di storage. Tuttavia, avverte ancora Gartner, anche a fronte di un’automazione in crescita, sarà sempre necessario l’intervento umano per verificare e confermare, in casi eccezionali, le azioni decise a livello dei sistemi informativi. Un aspetto particolarmente critico, soprattutto in vista della virtualizzazione dello storage e dell’aumento esponenziale dei dati, è quello del monitoraggio e delle eventuali correzioni di problemi nelle performance dei sistemi di storage, importanti soprattutto in infrastrutture Cloud, dove occorre gestire risorse magari fisicamente situate a grandi distanze dagli utilizzatori. Per effettuare questo controllo, i dipartimenti IT (o anche i nuovi dipartimenti storage che cominciano ad affacciarsi alla ribalta in alcune realtà di grandi dimensioni) dovranno dotarsi di tutti gli strumenti necessari a scoprire le eventuali degradazioni nelle performance. Secondo Gartner, variazioni dell’ordine dell’1 o 2% nelle prestazioni sono nella norma, probabilmente legate a semplici problemi di temporizzazione. Diverso è il caso di variazioni superiori al 5%: in questo caso occorre investigare per capire l’origine del problema. Per garantire una corretta gestione delle risorse di storage, Gartner consiglia di monitorare il proprio ambiente su base oraria, mediante l’utilizzo di cruscotti che evidenzino la comparsa di eccezioni (exception reporting).

I nuovi sistemi integrati

Tra le varie evoluzioni delle infrastrutture IT in chiave storage, ce n’è una che vede l’integrazione più stretta tra risorse di computing e di storage, per esempio, con l’intento di semplificare molte problematiche di system management. Anche in questo caso, tuttavia, sarà necessario implementare adeguate politiche e risorse di storage management, per assicurare l’ottimizzazione dell’impiego dello storage. Così, la definizione di policy generali per tutta l’organizzazione andrà poi sposata con la realizzazione di workflow appropriati e che possano automatizzare al massimo le attività di livello più basso, come la configurazione delle singole unità, per liberare risorse su livelli di decisione più strategici. Inoltre, fa ancora notare Gartner, lo storage dovrà continuare a essere monitorato e occorrerà progettare infrastrutture di storage contenenti tecnologie diverse, mentre sarà necessario progettare, mantenere e aggiornare i vari tier di storage, nonché configurare processi come i backup e restore e la data protection continua. Quindi, anche alla luce di una necessaria evoluzione verso le nuove esigenze e le nuove architetture tecnologiche, lo Storage Management e lo Storage Capacity Planning resteranno aspetti essenziali di una corretta politica di gestione delle risorse di storage.

Occorrerà comunque evitare per il futuro di continuare a seguire politiche cosiddette di overprovisioning, ossia di implementare risorse di storage ridondanti e molto maggiori del necessario. Il motivo per cui finora è stata seguita questa strada è ultimamente anche quello del crollo dei prezzi delle unità di storage, che, mentre oggi si aggirano sul livello di 1 dollaro per gigabyte, raggiungeranno, secondo IDC, 66 centesimi di dollaro per gigabyte nel 2015. Di converso, sempre secondo IDC, continuano a crescere gli investimenti: infatti, mentre nel 2011 il costo legato alla creazione, gestione e archiviazione delle informazioni è pari a 1/6 di quello del 2005, nello stesso periodo gli investimenti relativi sono cresciuti del 50%, fino a raggiungere i 4 trilioni di dollari. Questo significa che il denaro e le risorse non vanno più nella semplice espansione dell’infrastruttura e delle risorse, ma anche in tutto ciò che sta intorno, in termini di gestione, infrastruttura, software. Per il futuro, dunque, saranno premiate quelle aziende vendor che hanno scelto e seguito una strategia di lungo respiro, che garantisce ai clienti un approdo sicuro e competente in scelte che si rivelano ogni giorno più critiche per il successo del business.

Leggi anche:  Vertiv acquisisce CoolTera e amplia il portfolio di soluzioni di Liquid Cooling

Storage in rete

Non abbiamo parlato di evoluzione delle singole tecnologie storage, in quanto questo argomento si può considerare superato dagli eventi. Infatti, è ormai chiaro che, come in altri ambiti dell’IT, anche qui gli utenti guardano soprattutto alle prestazioni, all’efficienza e ai risultati ottenibili più che alla tecnologia impiegata. Una specie di approccio “black box”, in cui si guarda all’input, cioè a ciò che entra nel dispositivo, e all’output, cioè a ciò che esce, senza considerare cosa c’è realmente all’interno. È così che, come abbiamo visto, i nuovi dischi Ssd a stato solido prendono il loro posto di diritto nel parterre delle soluzioni di storage disponibili per gli utenti grazie alle caratteristiche di velocità e affidabilità, ma non scalzano i vecchi dischi magnetici rotanti o i nastri magnetici. Anche i dischi Worm, ottici e magneto-ottici, i Cd-rom e i Dvd o i più recenti Blue Ray trovano un loro spazio in questa panoramica, ma sempre in un’ottica di selezione in base al prosaico, ma importantissimo rapporto prezzo/prestazioni. In altri termini, non importa come funziona, l’importante è che sia in grado di fornire le prestazioni e lo spazio di cui ha bisogno la mia organizzazione.

Quello che è certo è che ormai lo storage, grazie alle evoluzioni della tecnologia, ma, soprattutto, a causa del diffondersi delle architetture virtualizzate e del Cloud computing, si è avviato in modo deciso sulla strada della rete: l’epoca dei Dasd (Direct access storage device) sembra ormai avviata a un inevitabile declino. I dispositivi di storage sono ormai sistemi a sé stanti, il cui obiettivo è ottimizzare l’occupazione di spazio e massimizzare il flusso di dati da e per i computer attraverso reti a banda larga sempre più performanti e, perché no, sempre più pubbliche. Tra l’altro, la disponibilità di risorse distribuite consente di assemblare le risorse in base alle reali esigenze del momento, evitando il già citato fenomeno dell’overprovisioning, e investendo la giusta quantità di denaro e risorse in un’ottica di pay-per-use o, se si preferisce, utility computing. L’acquisto di nuove risorse non è più il modo automatico in cui le aziende risolvono le nuove esigenze poste dal business e dal contesto in cui operano (normative, regolamenti e via dicendo). La possibilità di accedere a risorse comuni e condivise disponibili in ogni momento e in base alle reali necessità è la chiave per gestire in modo efficiente ed efficace lo storage e l’IT in generale. È ormai chiaro che il mondo si è avviato in questa direzione e il sempre maggior successo del Cloud computing ne è una prova lampante.

Conclusioni

Quali lezioni si possono trarre dalla situazione attuale delle tecnologie di storage per comprendere come si evolverà il mercato in futuro? Ancora una volta, gli esperti e gli analisti sottolineano la necessità di monitorare l’evoluzione e verificare come le infrastrutture attuali rispondano alle reali esigenze dell’organizzazione. Solo così si potrà attuare una corretta politica di manutenzione evolutiva delle risorse IT e, in particolare, di quelle di storage. Questo non significa lavorare solo nel breve periodo, spostando risorse e dati da uno storage locale al Cloud o a tier diversi (dischi più veloci, meno veloci, Ssd e nastri magnetici, per esempio) per ridurre i costi e la latenza o per rendere più prontamente disponibili i dati critici per il business senza aggravare i costi del dipartimento IT. Piuttosto, occorre, anche se ci rendiamo conto che nell’attuale congiuntura si tratta di una scelta certo non facile, pensare perlomeno in chiave di medio periodo, in modo da evitare di effettuare investimenti che, invece di aumentare l’efficienza e l’efficacia delle risorse attuali, si traducano in futuri colli di bottiglia in cui inevitabilmente cadrà l’infrastruttura quando la quantità di dati da gestire crescerà secondo i trend che abbiamo evidenziato all’inizio di questo articolo.

Perciò, ancora una volta, all’oculatezza degli investimenti occorre affiancare una altrettanto oculata politica di gestione delle risorse, sia da un punto di vista di acquisto di soluzioni hardware e software, sia di coinvolgimento di personale e/o di partner esterni in grado di assicurare un funzionamento ottimale e adeguato alle reali esigenze dell’azienda. Sempre tenendo presente che i dati, e quindi le informazioni, continuano a crescere e che se non si gestiscono prima o poi rappresenteranno un buco nero informatico, in grado di assorbire energie, risorse e potenza di elaborazione altrimenti destinate a garantire al business di operare in fluidità da un estremo all’altro della supply chain.