Cloudera presenta Apache Spark 2.0

Cloudera in occasione di Strata+Hadoop World a New York ha annunciato la sua versione basata Apache Spark 2.0 (Beta), con miglioramenti relativi all’utilizzo delle API, prestazioni potenziate e funzionalità di apprendimento automatiche avanzate.

Inoltre, Cloudera sta collaborando con la community per proseguire con lo sviluppo di Apache Kudu 1.0, da poco rilasciato dall’Apache Software Foundation. I recenti contributi di Cloudera a questi progetti open source, unitamente alla maggiore integrazione per la sua piattaforma, testimoniano la crescente necessità per lo streaming e l’analisi dei dati in tempo reale in carichi di lavoro ad alta richiesta, tra cui i modelli di apprendimento automatico distribuiti in produzione dai clienti enterprise di Cloudera.

TI PIACE QUESTO ARTICOLO?

Iscriviti alla nostra newsletter per essere sempre aggiornato.

L’impegno di Cloudera per l’innovazione in ambito open source è dimostrato dalla sua forte leadership nello stimolare lo sviluppo di caratteristiche e funzionalità richieste dalle aziende, in particolare in merito a sicurezza, stabilità e ampia integrazione. Tali funzionalità sono fondamentali per far sì che i progetti si trasformino in realtà e vengano adottati dalle imprese. Cloudera è stato il primo vendor di soluzioni di analisi per i big data basate su Hadoop a rendere disponibile una versione commerciale di Spark, e ha partecipato attivamente alla comunità open source per migliorare Spark per le imprese tramite il suo progetto One Platform Initiative. Con Spark 2.0, le aziende saranno in grado di sfruttare meglio i dati di streaming, sviluppare modelli di apprendimento automatico più ricchi e distribuirli in tempo reale, permettendo di mandare in produzione una maggior quantità di carichi di lavoro.

Tra le principali caratteristiche di Spark 2.0:

  • Prestazioni migliori e maggior fruibilità grazie al nuovo Dataset API
  • Streaming strutturato per prestazioni migliori e un più semplice inserimento di dati strutturati tradizionali, per dati di serie temporali, dati tabulari e Internet of Things (IoT)
  • Indipendenza dai tipi in fase di compilazione per funzioni definite dall’utente, per una maggior affidabilità nelle applicazioni mission-critical
  • Modello di apprendimento automatico, salvataggio permanente della pipeline e supporto per nuove librerie di apprendimento automatico per acquisire nuovi set di dati e applicazioni analitiche.
Leggi anche:  L’IA di Meta può riconoscere oltre 4mila lingue e dialetti

“Cloudera è stata la prima a offrire una versione commerciale di Apache Spark per la sua piattaforma big data. Da allora, Spark si è affermato come standard per carichi di lavoro di stream processing e apprendimento automatico in tutto il settore,” ha affermato Mike Olson, fondatore e chief strategy officer di Cloudera. “Come componente dell’hub di dati aziendali di Cloudera, Spark gode della sicurezza, gestibilità, governance dei dati e servizi di conformità richieste dai clienti. È in grado di gestire in modo affidabile carichi di lavoro ad alte prestazioni e scalabilità”.

Nel settembre 2015, Cloudera ha annunciato la beta pubblica di Apache Kudu, il suo sistema di storage basato su colonne (columnar store) per Hadoop ad alte prestazioni che ha abilitato una potente combinazione di rapide analitiche per i fast data. Due mesi dopo, Cloudera ha donato Kudu all’Apache Software Foundation (ASF) per renderlo disponibile alla più ampia comunità di sviluppatori per ampliare il tipo e la varietà di casi d’uso di fast analytic. Spark 2.0 offrirà alle aziende un miglior accesso ai dati di streaming mentre Kudu 1.0 permetterà alle imprese di adottare casi d’uso in tempo reale più rapidamente.

“Kudu è una risposta alla diffusione di casi d’uso di analitiche in tempo reale sul mercato”, ha affermato Charles Zedlewski, vice president, Products di Cloudera. “Già nel 2012, Cloudera aveva riconosciuto il divario in termini di analitiche nell’ecosistema Hadoop che stava portando i progettisti a creare architetture ibride complesse per analitiche in tempo reale. Con il lancio di Apache Kudu 1.0, la visione originale è ora una realtà fruibile poiché gli utenti possono fare affidamento su un unico progetto semplificato per rapide analitiche per i fast data. La comunità ha rapidamente adottato Kudu applicandolo a numerosi casi d’uso per analitiche in tempo reale e su ampia scala”.

Leggi anche:  La data strategy nella GDO

Kudu offre analisi rapide per le analitiche e funzionalità immediate di lettura/scrittura per aggiornamenti e ricerche frequenti. Inoltre, Kudu permette alle aziende di adottare casi d’uso real-time in modo più veloce. Oltre all’integrazione Spark, Kudu 1.0 è anche perfettamente integrato con MapReduce e Impala per un’elaborazione avanzata.

Le principali caratteristiche di Kudu 1.0 includono:

  • Un’architettura semplificata che permette attività di batch e stream processing molto rapide
  • Fault tolerance e scalabilità per centinaia di nodi
  • Una struttura basata su colonne che permette un’analisi analitica dei dati più recenti, per casi d’uso in tempo reale come dati di serie temporali, analitiche dei dati del computer e reporting online