Big Data Analysis con Hadoop e Spark

WebGL
18 aprile 2017
Big data per DevOps: utilizzo degli strumenti Hadoop per la gestione dei log, la sicurezza e l'ottimizzazione delle performances delle applicazioni (APM)
18 aprile 2017
Big Data

Big Data Analysis con Hadoop e Spark

Acquisire conoscenze riguardo i concetti teorici di base, gli strumenti e le tecniche per la progettazione e l’implementazione di procedure per l’analisi avanzata di elevate quantità di dati (Big Data) è oggi essenziale. Nel corso analizzeremo:

  • Utilizzo e programmazione Spark RDD con Scala
  • Analisi dei dati sul modello SPARK HBASE

Per ogni modulo si vedrà in quali circostanze è importante utilizzare quella specifica funzionalità per migliorare la user experience, come funziona lo standard e alcuni esempi di funzionamento. Vedremo inoltre gli strumenti avanzati di debug e le API di terze parti per sfruttare al massimo la funzionalità con il minimo sforzo.  Infine sfrutteremo le conoscenze acquisite per implementare la nostra app di esempio. Modulo bonus: la sicurezza nelle applicazioni offline.

Prerequisiti

Il partecipante dovrebbe avere una certa dimestichezza nella creazione di applicazioni distribuite utilizzando il linguaggio Java, la connessione a database mediante JDBC, l’interrogazione di basi di dati di tipo relazionale utilizzando il linguaggio SQL, l’utilizzo di un IDE e la conoscenza di base della linea di comandi dei sistemi operativi Unix-like.

 

 

Obiettivi formativi

  • Comprendere l’architettura ed i moduli del framework Hadoop;
  • Utilizzare il filesystem distribuito HDFS;
  • Scrivere ed avviare jobs MapReduce (java);
  • Caricare dati (bulk load) su HDFS;
  • Interrogare Hadoop utilizzando una sintassi SQL-like mediante Hive;
  • Utilizzare HBase per le interrogazioni real-time;
  • Utilizzare Spark per il processamento dei dati.

 

 

Programma

  • Definizione di Big Data
  • Approccio SQL vs. NoSQL
  • Analisi delle principali tipologie di database di tipo NoSQL
  • Introduzione al framework Hadoop
  • Utilizzo del filesystem HDFS
  • YARN e MapReduce
  • Scrittura di job MapReduce utilizzando il linguaggio Java
  • Data ingestion mediante l’utilizzo di  Sqoop
  • Interrogare Hadoop utilizzando una sintassi SQL-like con Hive
  • Interrogare Hadoop utilizzando script Pig
  • Introduzione a HBase
  • Architettura e operazioni di base sui dati in HBase
  • Introduzione al linguaggio Scala e sintassi di base
  • Elaborazione dati con Spark e principali differenze con MapReduce
  • Analisi di dati con Spark RDD (parte 1)
  • Analisi di dati con Spark RDD (parte 2)
  • Utilizzo di Spark SQL
  • Domande e risposte