DATA ANALYSIS

Fabio POSTIGLIONE DATA ANALYSIS

0622700092
DIPARTIMENTO DI INGEGNERIA DELL'INFORMAZIONE ED ELETTRICA E MATEMATICA APPLICATA
CORSO DI LAUREA MAGISTRALE
INGEGNERIA INFORMATICA
2023/2024

OBBLIGATORIO
ANNO CORSO 2
ANNO ORDINAMENTO 2022
PRIMO SEMESTRE
CFUOREATTIVITÀ
1DATA ANALYSIS
432LEZIONE
216ESERCITAZIONE
2DATA ANALYSIS
18LEZIONE
216LABORATORIO
Obiettivi
L’INSEGNAMENTO HA CARATTERE SIA METODOLOGICO CHE APPLICATIVO/PROGETTUALE.
IL CORSO MIRA A ILLUSTRARE DAPPRIMA LE PRINCIPALI METODOLOGIE DI INTERESSE PER L'ANALISI STATISTICA DEI DATI. SUCCESSIVAMENTE, AD APPLICARE TALI METODOLOGIE A PROBLEMI DI RILEVANZA PRATICA, ATTRAVERSO L'IMPIEGO DI STRUMENTI PER L’ANALISI STATISTICA, LA VISUALIZZAZIONE E L’ELABORAZIONE DEI DATI.


CONOSCENZE E COMPRENSIONE
•ACQUISIZIONE DELLE PRINCIPALI TECNICHE DI INFERENZA STATISTICA E ANALISI DEI DATI.
•APPROCCIO PARAMETRICO VS. APPROCCIO NON PARAMETRICO, METODI SUPERVISIONATI VS. METODI NON SUPERVISIONATI.
•ACQUISIZIONE DELLE TECNICHE E DEI PRINCIPALI STRUMENTI PER L’ANALISI DI BIG DATA.

APPLICAZIONE DELLE CONOSCENZE E DELLA COMPRENSIONE
•CAPACITÀ DI APPLICARE LE PRINCIPALI METODOLOGIE DI ANALISI DEI DATI E INFERENZA STATISTICA A PROBLEMI PRATICI (ES., ANALISI DI DATI SOCIALI, BIOMEDICI).
•CAPACITÀ DI ANALIZZARE GRANDI MOLI DI DATI, ORGANIZZATI IN STRUTTURE COMPLESSE, ETEROGENEE, E A ELEVATA DIMENSIONALITÀ.
•CAPACITÀ DI UTILIZZARE STRUMENTI (ES., LINGUAGGIO R, PYTHON, MATLAB) PER L’ANALISI STATISTICA, LA VISUALIZZAZIONE E L’ELABORAZIONE DEI DATI.
•CAPACITÀ DI UTILIZZARE I PRINCIPALI TOOL DI INTERESSE APPLICATIVO PER PROBLEMI DI DATA ANALYTICS (ES., APACHE SPARK).
Prerequisiti
PREREQUISITI: ADEGUATE CONOSCENZE MATEMATICHE E DEGLI ELEMENTI DI BASE DI PROBABILITÀ E STATISTICA.
Contenuti
Unità didattica 1: Introduzione al corso e metodi parametrici
(ORE LEZIONE/ESERCITAZIONE/LABORATORIO: 6/0/2)
- 1 (ore lezione 2): Introduzione all’analisi dei dati. Differenza tra apprendimento, predizione e inferenza. Differenze tra regressione e classificazione. METODI di stima PARAMETRICI. MASSIMA VEROSIMIGLIANZA.
- 2 (ore lezione 2): APPROCCIO BAYESIANO e stimatori a minimo errore quadratico medio. Funzioni di costo rilevanti per i problemi di stima e regressione.
- 3 (ore lezione 2): Calcolo di stimatori a massima verosimiglianza e a minimo errore quadratico medio in un classico problema Gaussiano.
- 4 (ore laboratorio 2): Simulazione al calcolatore e valutazione delle prestazioni degli stimatori illustrati nelle lezioni precedenti.

Conoscenze e capacità di comprensione:
Tecniche parametriche per la risoluzione di problemi di statistical learning.
Conoscenze e capacità di comprensione applicate:
Progettare e realizzare algoritmi di stima parametrici.


Unità didattica 2 – Metodi supervisionati per la regressione (ORE LEZIONE/ESERCITAZIONE/LABORATORIO: 20/0/8)
- 5 (ore lezione 2): Funzione di regressione, nessi e differenze tra modelli supervisionati e modelli parametrici.
- 6 (ore lezione 2): Regressione lineare semplice.
- 7 (ore lezione 2): Regressione lineare multipla.
- 8 (ore lezione 2): Inferenza statistica. Test di ipotesi e p-value.
- 9 (ore lezione 2): SELEZIONE DEI MODELLI LINEARI. SELEZIONE STEPWISE.
- 10 (ore lezione 2): Normalizzazione dei dati
- 11 (ore lezione 2): Regolarizzazione/shrinkage. Collinearità e problemi ad elevata dimensionalità. RIDGE REGRESSION.
- 12 (ore lezione 2): Tecnica LASSO. Riduzione della dimensionalità.
- 13 (ore laboratorio 2): Implementazione al calcolatore di algoritmi di regressione lineare semplice e multipla.
- 14 (ore laboratorio 2): Implementazione al calcolatore di tecniche di inferenza.
- 15 (ore laboratorio 2): Implementazione al calcolatore delle tecniche RIDGE E LASSO.
- 16 (ore lezione 2): CROSS-VALIDATION. BOOTSTRAP.
- 17 (ore lezione 2): APPROCCI NON PARAMETRICI SUPERVISIONATI. Metodi locali. NAÏVE-KERNEL. METODO K-NN.
- 18 (ore laboratorio 2): Implementazione al calcolatore dei metodi naïve-kernel e K-NN.

Conoscenze e capacità di comprensione
Tecniche di risoluzione di problemi di regressione. Stima dei parametri di un modello, variable selection, e test di significatività per la determinazione dei fattori di influenza e l’interpretazione dei modelli. Tecniche di regolarizzazione/shrinkage per l’analisi di dati ad elevata dimensionalità.
Conoscenze e capacità di comprensione applicate
Progettare e realizzare algoritmi di regressione e di inferenza statistica, per la predizione, l’interpretazione dei dati e la valutazione della significatività statistica dei risultati.


Unità didattica 3: CLASSIFICAZIONE
(ORE LEZIONE/ESERCITAZIONE/LABORATORIO: 12/0/12)
- 19 (ore lezione 2): Tecniche di decisione parametriche. Criterio di Neyman-Pearson e approccio Bayesiano.
- 20 (ore lezione 2): Decisori parametrici per un classico problema Gaussiano.
- 21 (ore laboratorio 2): Simulazione al calcolatore di decisori parametrici per il problema Gaussiano illustrato nella precedente lezione.
- 22 (ore lezione 2): Metodi supervisionati. NAÏVE-BAYES.
- 23 (ore lezione 2): Regressione logistica.
- 24 (ore lezione 2): Algoritmi del gradiente per la risoluzione di problemi di regressione e classificazione.
- 25 (ore laboratorio 2): Risoluzione del problema di regressione logistica attraverso l’utilizzo di algoritmi del gradiente.
- 26 (ore laboratorio 2): Implementazione al calcolatore del classificatore naïve-Bayes.
- 27 (ore laboratorio 2): Implementazione al calcolatore della regressione logistica.
- 28 (ore laboratorio 2): Framework dedicati per l’implementazione distribuita di algoritmi di data analysis.
- 29 (ore lezione 2): LINEAR DISCRIMINANT ANALYSIS (LDA).
- 30 (ore laboratorio 2): Implementazione al calcolatore di tecniche di LDA.

Conoscenze e capacità di comprensione
Tecniche di risoluzione di problemi di classificazione. Algoritmi di ottimizzazione (es., algoritmi del gradiente e del gradiente stocastico) per lo statistical learning.
Conoscenze e capacità di comprensione applicate
Progettare e realizzare algoritmi di classificazione. Implementare algoritmi distribuiti per l’analisi dei dati attraverso framework dedicati.


Unità didattica 4: APPRENDIMENTO NON SUPERVISIONATO
(ORE LEZIONE/ESERCITAZIONE/LABORATORIO: 8/0/4)
31 (ore lezione 2): Principal Component analysis (PCA): metodologia.
32 (ore lezione 2): Principal Component analysis: significato fisico e applicazioni.
33 (ore laboratorio 2): Implementazione al calcolatore della PCA.
34 (ore lezione 2): CLUSTERING. L'ALGORITMO K-MEANS. CLUSTERING GERARCHICO
35 (ore lezione 2): L’ALGORITMO EXPECTATION-MAXIMIZATION. L'ALGORITMO DBSCAN.
36 (ore laboratorio 2): Implementazione al calcolatore di algoritmi di clustering.

Conoscenze e capacità di comprensione
Tecniche di risoluzione di problemi di statistical learning non supervisionato. PCA e clustering.
Conoscenze e capacità di comprensione applicate
Progettare e realizzare algoritmi di statistical learning non supervisionato.



TOTALE ORE LEZIONE/ESERCITAZIONE/LABORATORIO 46/0/26
Metodi Didattici
L’INSEGNAMENTO PREVEDE LEZIONI TEORICHE ED ESERCITAZIONI IN AULA E AL CALCOLATORE. SUGLI ARGOMENTI PROPOSTI.

Verifica dell'apprendimento
L’ESAME CONSISTE NELLA DISCUSSIONE DI UN ELABORATO PROGETTUALE, ED È FINALIZZATO A VALUTARE NEL SUO COMPLESSO: LA CONOSCENZA E LA CAPACITÀ DI COMPRENSIONE DEI CONCETTI PRESENTATI AL CORSO; LA CAPACITÀ DI RISOLVERE PROBLEMI DI STATISTICAL DATA ANALYSIS ATTRAVERSO LE METODOLOGIE E GLI STRUMENTI ILLUSTRATI DURANTE IL CORSO.
VENGONO ANCHE VALUTATE: L’AUTONOMIA DI GIUDIZIO, LA CAPACITÀ ESPOSITIVA E LA CAPACITÀ DI APPRENDERE.

Testi
AN INTRODUCTION TO STATISTICAL LEARNING,
G. JAMES, D. WITTEN, T. HASTIE, R. TIBSHIRANI,
SPRINGER, 2013.

AN ELEMENTARY INTRODUCTION TO STATISTICAL LEARNING,
S. KULKARNI, G. HARMAN,
WILEY, 2010.

MATERIALE DIDATTICO INTEGRATIVO SARÀ DISPONIBILE NELLA SEZIONE DEDICATA DELL'INSEGNAMENTO ALL'INTERNO DELLA PIATTAFORMA E-LEARNING DI ATENEO (HTTP://ELEARNING.UNISA.IT) ACCESSIBILE AGLI STUDENTI DEL CORSO TRAMITE LE CREDENZIALI UNICHE DI ATENEO.
Altre Informazioni
L'INSEGNAMENTO È EROGATO IN INGLESE.
  BETA VERSION Fonte dati ESSE3 [Ultima Sincronizzazione: 2024-11-05]