Implementazione dell’AI: orientarsi tra le complessità che questa tecnologia genera nella gestione delle infrastrutture IT

Implementazione dell'AI: orientarsi tra le complessità che questa tecnologia genera nella gestione delle infrastrutture IT

I sistemi informatici ad alte prestazioni per le applicazioni di AI devono essere progettati, gestiti e, soprattutto, richiedono servizi di manutenzione di qualità

A cura di Andrea Faeti, Sales Director Enterprise Accounts di Vertiv per l’Italia

Con l’incremento di utilizzo dell’AI, le imprese sono pronte a investire nelle infrastrutture per agevolare i vantaggi di produttività derivanti dalle nuove applicazioni che, al tempo stesso, sono impegnative dal punto di vista delle risorse. I nuovi requisiti per le capacità di elaborazione spingono infatti verso l’adozione di sistemi di elevata potenza che impongono processi di alimentazione e raffreddamento in grado di gestire con efficienza ed affidabilità elevati consumi energetici. Di conseguenza nasce la necessità di smaltire il calore prodotto dagli elaboratori, richiedendo anche una nuova generazione di sistemi di alimentazione e raffreddamento che deve essere progettata, gestita e, soprattutto, sottoposta a manutenzione con maggiore attenzione.

TI PIACE QUESTO ARTICOLO?

Iscriviti alla nostra newsletter per essere sempre aggiornato.

La realizzazione dell’infrastruttura per il supporto delle più innovative GPU (unità di elaborazione grafica) che alimentano queste applicazioni è affidata a produttori, consulenti e operatori specializzati e i requisiti di manutenzione dovrebbero essere valutati già in fase di progettazione. Inoltre, le applicazioni dei sistemi HPC/AI hanno caratteristiche distintive in termini di consumo energetico. In primis, sebbene i progressi nell’hardware dei server abbiano portato a una maggiore efficienza energetica per unità di dati, le applicazioni di AI richiedono più energia per i processi ad alta intensità (esempio per l’istruzione dei modelli e il processo di inferenza in tempo reale). Inoltre, il profilo di consumo dinamico varia a seconda di fattori quali il tipo di operazioni eseguite, la configurazione del sistema e l’architettura della GPU.

Questo fabbisogno energetico extra mette a dura prova le attuali soluzioni di raffreddamento richiedendo sia aria che liquido per gestire il calore prodotto dai nuovi server. Il potenziamento dei sistemi raffreddati ad aria con un sistema di raffreddamento a liquido a “rear door” (con porte refrigerate adattate direttamente al rack che consentono lo smaltimento del calore prodotto prima che questo si possa diffondere nell’ambiente)  o “direct to chip” (con liquido refrigerante che raggiunge direttamente i componenti critici all’interno del server)  richiede agli operatori la gestione di soluzioni a differenti temperature e la gestione dell’inerzia termica del sistema per soddisfare gli SLA (service-level agreement) della soluzione. L’implementazione del raffreddamento a liquido richiede, ad esempio, un attento monitoraggio delle dispersioni, il campionamento regolare dei fluidi (per verificarne le caratteristiche chimico-fisiche) e una attenta gestione della sostituzione dei server installati.

Leggi anche:  L'85% dei Decision Maker esprime un forte interesse per soluzioni di IA sul posto di lavoro ma l'82% i non è preparato alla sua integrazione

I responsabili operativi dei data center dipendono tradizionalmente da eventi e avvisi provenienti da vari sistemi di gestione, come i BMS (Building Management Systems) e gli EPMS (Electrical Power Management Systems). Questi dati supportano le attività quotidiane, ma sono spesso privi di informazioni specifiche in tempo reale per l’analisi dettagliata di questi processi. Di conseguenza, possono sfuggire le inefficienze energetiche, con un potenziale aumento dei costi e una riduzione degli obiettivi di sostenibilità dell’azienda. I dati essenziali in tempo reale, come i tassi di pressione e di flusso dei fluidi, sono scarsi e non esistono analisi predittive avanzate per la manutenzione delle apparecchiature.

I metodi tradizionali di manutenzione delle infrastrutture per l’energia elettrica e termica sono basati sulle previsioni temporali e prevedono controlli di routine, indipendentemente dalle condizioni effettive delle apparecchiature. Questo approccio comporta un rischio nella gestione manuale e può portare a tempi di inattività imprevisti, operazioni inefficienti e rischi non identificati. In applicazioni HPC, in cui il funzionamento dipende in larga misura dalle prestazioni dell’infrastruttura, compresi componenti come il liquido di raffreddamento, le valvole, le pompe, i filtri, le batterie, le ventole e i condensatori, l’uso di analisi dei dati avanzate è essenziale per garantire una risposta efficace.

I principali produttori per le infrastrutture digitali critiche, come Vertiv, offrono servizi completi che soddisfano i requisiti dei nuovi sistemi di alimentazione e raffreddamento per supportare le applicazioni di AI. I servizi offrono un’assistenza personalizzata per la configurazione e il funzionamento, oltre alla raccolta di dati in tempo reale sugli asset critici. Alcuni nuovi servizi sono in grado di trasmettere in tutta sicurezza i dati tecnici delle apparecchiature a una piattaforma cloud, dove l’AI e il machine learning li analizzano per produrre punteggi sull’efficienza dei sistemi e rilevare le anomalie.

Leggi anche:  Energy & Utilities “a prova di futuro”: 7 punti per una strategia di successo secondo Denodo

Con l’accesso a strumenti analitici e di reporting dettagliati, è possibile prendere decisioni mirate. La maggiore visibilità sull’operatività aumenta la fiducia degli stakeholder e favorisce l’efficienza operativa. Gli strumenti di analisi tipici includono i seguenti:

  • Valutazione dello stato di salute degli impianti. Identifica sia i siti sani che quelli potenzialmente problematici, e fa un benchmarking delle apparecchiature installate in ambienti elettrici e fisici simili per determinare le attività di manutenzione e la frequenza.
  • Valutazione dello stato di salute dell’apparecchiatura. I parametri relativi allo stato di sottosistemi e componenti vengono registrati per consentire programmi di manutenzione e sostituzione accurati per l’intero ciclo di vita.
  • Alert critici. Vengono evidenziati gli avvisi che richiedono un’attenzione immediata da parte dei tecnici.
  • Numero di alert critici. Gli impianti con frequenti e/o specifici tipi di eventi critici vengono evidenziati per una corretta pianificazione e prevenzione (ad esempio, le parti di ricambio necessarie a magazzino).

Per ridurre i rischi economici, tecnici e di sicurezza dovuti alla crescente complessità dei data center moderni servono soluzioni di manutenzione personalizzabili e scalabili, tra cui:

  • Approccio alla manutenzione che riconosca i problemi prima che si verifichino, misurando le condizioni tecniche dei sistemi infrastrutturali critici, identificando le anomalie, segnalando gli interventi necessari e attivando una manutenzione ordinaria allineata alle reali esigenze delle apparecchiature.
  • Supporto avanzato per la gestione degli incidenti che offra la risoluzione dei problemi, l’analisi delle cause e la risposta agli incidenti collegando i sistemi critici con tecnici esperti. I dati in tempo reale vengono monitorati per individuare le tendenze, prevedere i comportamenti e risolvere le anomalie. I problemi possono essere risolti da remoto o con l’invio di un tecnico sul campo. Questo servizio integrato ottimizza le prestazioni delle apparecchiature e la disponibilità.
  • I portali per i clienti offrono un’interfaccia intuitiva, basata su cloud, per un facile accesso alle informazioni sugli asset dei data center e alle rappresentazioni grafiche dei declini rapidi o graduali dei livelli di efficienza delle apparecchiature. Grazie a dashboard complete, gli utenti possono prendere rapidamente decisioni ponderate, migliorando l’efficienza e riducendo i rischi di fermo macchina.
Leggi anche:  Competenze e formazione sull’AI per un’innovazione consapevole