INFORMATION SYSTEMS FOR BIG DATA

Giuseppe FENZA INFORMATION SYSTEMS FOR BIG DATA

0222800009
DIPARTIMENTO DI SCIENZE AZIENDALI - MANAGEMENT & INNOVATION SYSTEMS
CORSO DI LAUREA MAGISTRALE
DATA SCIENCE E GESTIONE DELL'INNOVAZIONE
2023/2024

OBBLIGATORIO
ANNO CORSO 2
ANNO ORDINAMENTO 2022
PRIMO SEMESTRE
CFUOREATTIVITÀ
321LEZIONE
321LABORATORIO
Obiettivi
IL CORSO HA L’OBIETTIVO DI INTRODURRE I CONCETTI FONDAMENTALI, LE TECNOLOGIE E LE ARCHITETTURE DI RIFERIMENTO, NONCHÉ I REQUISITI, PER LA PROGETTAZIONE E LA REALIZZAZIONE DI SISTEMI INFORMATIVI ORIENTATI AI BIG DATA.
LA CONOSCENZA E LA CAPACITÀ DI COMPRENSIONE SI SVILUPPERANNO PRINCIPALMENTE MEDIANTE LO STUDIO DI ALCUNI DEI FRAMEWORK TECNOLOGICI PIÙ RILEVANTI NEL CONTESTO DEI BIG DATA, QUALI: HADOOP, SPARK, SPARK STREAMING, KAFKA, STORM, ETC. INOLTRE, SI STUDIERANNO TECNOLOGIE DI MEMORIZZAZIONE BASATE SU NOSQL (MONGODB, NEO4J, ETC.), FORMATI DI FILE PER BIG DATA (AVRO, PARQUET, ETC.), E SARANNO FORNITI CENNI INTRODUTTIVI ALLA VISUALIZZAZIONE DATI MEDIANTE STACK TECNOLOGICI, QUALI: APACHE SOLR+BANANA, ELASTICSEARCH+KIBANA, ETC.
IN PARTICOLARE, TALI FRAMEWORK SARANNO SPERIMENTATI NELL’AMBITO DI ATTIVITÀ PROGETTUALI PER IMPLEMENTARE IN MODO SCALABILE LE FASI DI: ACQUISIZIONE, MEMORIZZAZIONE ED ELABORAZIONE DISTRIBUITA, SIA IN MODALITÀ BATCH CHE STREAM, PER IL CALCOLO DI ANALITICHE DEDUCIBILI DA RISORSE NON STRUTTURATE, O SEMI-STRUTTURATE.
ALLA FINE DEL CORSO, LO STUDENTE SARÀ IN GRADO DI SELEZIONARE ED UTILIZZARE I FRAMEWORK PIÙ APPROPRIATI PER REALIZZARE UN INFORMATION SYSTEM ORIENTATO AI BIG DATA. LO STUDENTE SARÀ INCORAGGIATO A SVOLGERE LAVORO DI GRUPPO IN CUI SARANNO APPLICATE LE CONOSCENZE ACQUISITE PER L’IMPLEMENTAZIONE DI UN PROGETTO CHE ESIBISCA FUNZIONALITÀ DI BIG DATA ANALYTICS IN UN AMBITO A SCELTA TRA: OPEN SOURCE INTELLIGENCE, MISINFORMATION E FAKE NEWS, SMART ENVIRONMENT, ETC. IN QUESTO MODO SI ESERCITERÀ LA CAPACITÀ DI SELEZIONARE E ADOTTARE SCELTE TECNOLOGICHE IN DIPENDENZA DI ESIGENZE ETEROGENEE DERIVATE DAL CONTESTO DI PROGETTO.
Prerequisiti
È AUSPICABILE CHE GLI STUDENTI CONOSCANO: I CONCETTI RELATIVI AGLI ALGORITMI E ALLE STRUTTURE DATI FONDAMENTALI; UNO DEI LINGUAGGI DI PROGRAMMAZIONE TRA JAVA, PYTHON, SCALA PER SCRIVERE PROGRAMMI ATTI A RISOLVERE SEMPLICI PROBLEMI; I FONDAMENTI DELLE BASI DI DATI E DEL LINGUAGGIO SQL.
Contenuti
DOPO UNA BREVE INTRODUZIONE AI PRINCIPALI OBIETTIVI FORMATIVI DEL CORSO, GLI STUDENTI SARANNO INTRODOTTI AL MONDO DEI BIGDATA.
SIN DAI MOMENTI INIZIALI DEL CORSO GLI STUDENTI SARANNO INCORAGGIATI A LAVORARE IN GRUPPO ALLA DEFINIZIONE DI UN PROGETTO CHE REALIZZERANNO APPLICANDO LE CONOSCENZE ACQUISITE SEGUENDO UN APPROCCIO STEP-BY-STEP.
PERTANTO, IL CORSO SARÀ ARTICOLATO NELLE SEGUENTI PARTI PRINCIPALI.

(4 ORE) INTRODUZIONE AI BIGDATA ED ALLE ARCHITETTURE BIGDATA ENABLED
PANORAMICA SUI BIGDATA
REQUISITI BIGDATA INFORMATION SYSTEM
ARCHITETTURA LAMBDA E KAPPA

(4 ORE DI CUI 1 DI LABORATORIO) ACQUISIZIONE
FORMATI DI SCAMBIO E SERIALIZZAZIONE DATI: CSV, JSON, AVRO, PARQUET, ETC.
REST E STREAM API PER L’ACCESSO A SORGENTI DATI, QUALI: TWITTER, DROPBOX, ETC.

(10 ORE DI CUI 7 DI LABORATORIO) ELABORAZIONE ED ANALISI DISTRIBUITA DEI BIG DATA
HADOOP E TECNOLOGIE AD ESSO RELATE.
SPARK, E ALTRI ENGINE DI ELABORAZIONE DISTRIBUITA.
ESERCITAZIONI CON SPARK DATAFRAME
ESERCITAZIONI CON SPARK MACHINE LEARNING

(10 ORE DI CUI 7 DI LABORATORIO) STORAGE
NOSQL DB, QUALI KEY-VALUE STORE, DOCUMENT-ORIENTED DATABASE, COLUMN-ORIENTED E GRAPH DB.
ESERCITAZIONI CON MONGODB
ESERCITAZIONI CON NEO4J

(10 ORE DI CUI 4 DI LABORATORIO) DISTRIBUTED STREAM PROCESSING
INTRODUZIONE ALL’ELABORAZIONE DISTRIBUITA DI STREAM DI DATI.
APACHE STORM
ESERCITAZIONI CON SPARK STREAMING
ESERCITAZIONI CON KAFKA STREAMING

(4 ORE DI CUI 2 DI LABORATORIO) BIG DATA ANALYTICS
INTRODUZIONE ALLA REALIZZAZIONE DI DASHBOARD PER LA VISUALIZZAZIONE DI ANALYTICS MEDIANTE APPLICAZIONI WEB, INCLUDENDO D3.JS E GLI STACK TECNOLOGICI PIÙ UTILIZZATI, QUALI: APACHE SOLR E BANANA, ELASTICSEARCH E KIBANA
ESERCITAZIONI CON APACHE SOLR E BANANA
Metodi Didattici
IL CORSO SI PROPONE DI SPRONARE GLI STUDENTI AL PROCESSO DI FORMAZIONE PERMANENTE, CHE COMPORTA L’AGGIORNAMENTO CONTINUO (PER TUTTA LA VITA) DELLE CONOSCENZE E DELLE COMPETENZE, CERCANDO DI STIMOLARE LO SPIRITO CRITICO IN MERITO ALLE NUOVE TECNOLOGIE EMERGENTI NELL’AMBITO DI RIFERIMENTO.
AL FINE DI ABITUARLI ALL'AUTO-APPRENDIMENTO, GLI STUDENTI SARANNO INVITATI AD APPROFONDIRE GLI ARGOMENTI DEL CORSO PROPONENDO LORO L’ACCESSO A RISORSE ONLINE DI PARTICOLARE INTERESSE.
DURANTE IL CORSO IL DOCENTE FARÀ UN AMPIO USO DI ESEMPI, ESERCITAZIONI GUIDATE.
DA UN PUNTO DI VISTA STRUTTURALE, LE LEZIONI CONSISTERANNO IN:
(21 ORE) LEZIONI FRONTALI.
(21 ORE) LABORATORIO.

LA FREQUENZA ALLE LEZIONI NON È OBBLIGATORIA MA È FORTEMENTE CONSIGLIATA.
Verifica dell'apprendimento
IL RAGGIUNGIMENTO DEGLI OBIETTIVI DELL’INSEGNAMENTO È CERTIFICATO MEDIANTE IL SUPERAMENTO DI UN ESAME CON VALUTAZIONE IN TRENTESIMI.
L’ESAME È SUDDIVISO IN DUE PARTI, UNA “TEORICA” E UNA “PRATICA”; OGNI PARTE PRESENTA UNA SOGLIA MINIMA DI SUFFICIENZA, AL DI SOTTO DELLA QUALE L’INTERO ESAME NON È SUPERATO, ANCHE SE L’INSUFFICIENZA DOVESSE RIGUARDARE UNA SOLA DELLE DUE PARTI. IL VOTO FINALE È DATO, DI NORMA, DALLA SOMMA DEI VOTI DELLE DUE PARTI (SEMPRE SE ENTRAMBE SUPERATE).
PRIMA 1: LA VALUTAZIONE “TEORICA” CONSISTE NELL’ESPOSIZIONE DA PARTE DELLO STUDENTE DI UN ARGOMENTO DI INTERESSE, PER IL CORSO SVOLTO, DAL PUNTO DI VISTA TECNOLOGICO, METODOLOGICO E/O APPLICATIVO (MEDIANTE UNA RICERCA SVOLTA INDIVIDUALMENTE E CON SPIRITO CRITICO CON OPPORTUNI LEGAMI E PARALLELISMI CON LE TEMATICHE STUDIATE DURANTE IL CORSO);
PARTE 2: PROGETTO SVOLTO IN TEAM UTILIZZANDO PARTE DELLE TECNOLOGIE STUDIATE DURANTE IL CORSO E/O QUELLE EVENTUALMENTE EMERSE DALLE RICERCHE INDIVIDUALI.
Testi
MARZ, N., & WARREN, J. (2015). BIG DATA: PRINCIPLES AND BEST PRACTICES OF SCALABLE REAL-TIME DATA SYSTEMS. NEW YORK; MANNING PUBLICATIONS CO.

LIBRI SUGGERITI:

BAHGA, ARSHDEEP, AND VIJAY MADISETTI. BIG DATA SCIENCE & ANALYTICS: A HANDS-ON APPROACH. VPT, 2016.
Altre Informazioni
SARANNO FORNITI LINK A MATERIALE DISPONIBILE ONLINE E MATERIALE DIDATTICO USATO A LEZIONE.
  BETA VERSION Fonte dati ESSE3 [Ultima Sincronizzazione: 2024-12-17]