STATISTICAL DATA ANALYSIS

Fabio POSTIGLIONE STATISTICAL DATA ANALYSIS

0622900026
DIPARTIMENTO DI INGEGNERIA DELL'INFORMAZIONE ED ELETTRICA E MATEMATICA APPLICATA
CORSO DI LAUREA MAGISTRALE
DIGITAL HEALTH AND BIOINFORMATIC ENGINEERING
2021/2022



ANNO CORSO 2
ANNO ORDINAMENTO 2018
PRIMO SEMESTRE
CFUOREATTIVITÀ
1STATISTICAL DATA ANALYSIS - MOD.2
324LEZIONE
324ESERCITAZIONE
2STATISTICAL DATA ANALYSIS - MOD.1
216LEZIONE
18ESERCITAZIONE
Obiettivi
L’INSEGNAMENTO HA CARATTERE SIA METODOLOGICO CHE APPLICATIVO/PROGETTUALE.
IL CORSO MIRA A ILLUSTRARE DAPPRIMA LE PRINCIPALI METODOLOGIE DI INTERESSE PER L'ANALISI STATISTICA DEI DATI. SUCCESSIVAMENTE, AD APPLICARE TALI METODOLOGIE A PROBLEMI DI RILEVANZA PRATICA, ATTRAVERSO L'IMPIEGO DI STRUMENTI PER L’ANALISI STATISTICA, LA VISUALIZZAZIONE E L’ELABORAZIONE DEI DATI.


CONOSCENZE E COMPRENSIONE
•ACQUISIZIONE DELLE PRINCIPALI TECNICHE DI INFERENZA STATISTICA E ANALISI DEI DATI.
•APPROCCIO PARAMETRICO VS. APPROCCIO NON PARAMETRICO, METODI SUPERVISIONATI VS. METODI NON SUPERVISIONATI.
•ACQUISIZIONE DELLE TECNICHE E DEI PRINCIPALI STRUMENTI PER L’ANALISI DI BIG DATA.

APPLICAZIONE DELLE CONOSCENZE E DELLA COMPRENSIONE
•CAPACITÀ DI APPLICARE LE PRINCIPALI METODOLOGIE DI ANALISI DEI DATI E INFERENZA STATISTICA A PROBLEMI PRATICI (ES., ANALISI DI DATI SOCIALI, BIOMEDICI).
•CAPACITÀ DI ANALIZZARE GRANDI MOLI DI DATI, ORGANIZZATI IN STRUTTURE COMPLESSE, ETEROGENEE, E A ELEVATA DIMENSIONALITÀ.
•CAPACITÀ DI UTILIZZARE STRUMENTI (ES., LINGUAGGIO R, PYTHON, MATLAB) PER L’ANALISI STATISTICA, LA VISUALIZZAZIONE E L’ELABORAZIONE DEI DATI.
•CAPACITÀ DI UTILIZZARE I PRINCIPALI TOOL DI INTERESSE APPLICATIVO PER PROBLEMI DI DATA ANALYTICS (ES., APACHE SPARK).
Prerequisiti
PREREQUISITI: ADEGUATE CONOSCENZE MATEMATICHE E DEGLI ELEMENTI DI BASE DI PROBABILITÀ E STATISTICA.
Contenuti
- RICHIAMI DI STATISTICA DI BASE (ORE LEZIONE/ESERCITAZIONE/LABORATORIO: 7/2/1)
INFERENZA STATISTICA, METODI PARAMETRICI. STIMA A MASSIMA VEROSIMIGLIANZA. TEORIA STATISTICA DELLA DECISIONE. APPROCCIO BAYESIANO.

- NORMALIZZAZIONE DEI DATI. WHITENING (1/0/1)

- INTRODUZIONE ALL'APPRENDIMENTO SUPERVISIONATO E MODELLI LINEARI (6/0/3)
REGRESSIONE LINEARE MULTIPLA. MODELLI LINEARI GENERALIZZATI (GLM)

- CLASSIFICAZIONE (10/3/3)
REGRESSIONE LOGISTICA. LINEAR DISCRIMINANT ANALYSIS. FORMULAZIONE BAYESIANA DEI PROBLEMI DI REGRESSIONE/CLASSIFICAZIONE. ERRORE DI BIAS ED ERRORE DI VARIANZA. NAÏVE-BAYES. APPROCCI NON PARAMETRICI SUPERVISIONATI. ESEMPI: NAÏVE-KERNEL, METODI NN E K-NN

- METODI DI RICAMPIONAMENTO (2/0/1)
CROSS-VALIDATION (LOO, K-FOLD). BOOTSTRAP.

- SELEZIONE DEI MODELLI LINEARI E REGOLARIZZAZIONE (9/0/3)
SELEZIONE STEPWISE. RIDGE REGRESSION. LASSO. RIDUZIONE DELLA DIMENSIONALITÀ: PRINCIPAL COMPONENT REGRESSION. ESTENSIONI AL CASO HIGH-DIMENSIONAL DATA. CENNI ALLE TECNICHE DI SPARSIFICAZIONE PER BIG DATA ANALYTICS.

- MODELLI ADDITIVI GENERALIZZATI E METODI BASATI SU ALBERI (1/0/0)

- SUPPORT VECTOR MACHINES (1/0/0)

- APPRENDIMENTO NON SUPERVISIONATO, ANALISI ALLE COMPONENTI PRINCIPALI E CLUSTERING (10/3/3)
PRINCIPAL COMPONENTS ANALYSIS. CLUSTERING BASATO SU CENTROIDI: L'ALGORITMO K-MEANS. CLUSTERING GERARCHICO. ALTRI ESEMPI DI TECNICHE DI CLUSTERING. MISTURE DI GAUSSIANE E CLUSTERING BASATO SULL'ALGORITMO EXPECTATION-MAXIMIZATION. CLUSTERING BASATO SULLA DENSITÀ: L'ALGORITMO DBSCAN.

- STATISTICA NON PARAMETRICA E CENNI DI FUNCTIONAL DATA ANALYSIS (1/0/1)

TOTALE ORE LEZIONE/ESERCITAZIONE/LABORATORIO 48/8/16

- STRUMENTI DI CALCOLO:
R
PYTHON
MATLAB
APACHE SPARK


Metodi Didattici
L’INSEGNAMENTO PREVEDE LEZIONI TEORICHE ED ESERCITAZIONI IN AULA E AL CALCOLATORE. SUGLI ARGOMENTI PROPOSTI.

Verifica dell'apprendimento
L’ESAME CONSISTE NELLA DISCUSSIONE DI UN ELABORATO PROGETTUALE, ED È FINALIZZATO A VALUTARE NEL SUO COMPLESSO: LA CONOSCENZA E LA CAPACITÀ DI COMPRENSIONE DEI CONCETTI PRESENTATI AL CORSO; LA CAPACITÀ DI RISOLVERE PROBLEMI DI STATISTICAL DATA ANALYSIS ATTRAVERSO LE METODOLOGIE E GLI STRUMENTI ILLUSTRATI DURANTE IL CORSO.
VENGONO ANCHE VALUTATE: L’AUTONOMIA DI GIUDIZIO, LA CAPACITÀ ESPOSITIVA E LA CAPACITÀ DI APPRENDERE.

Testi
AN INTRODUCTION TO STATISTICAL LEARNING,
G. JAMES, D. WITTEN, T. HASTIE, R. TIBSHIRANI,
SPRINGER, 2013.

AN ELEMENTARY INTRODUCTION TO STATISTICAL LEARNING,
S. KULKARNI, G. HARMAN,
WILEY, 2010.

MATERIALE DIDATTICO INTEGRATIVO SARÀ DISPONIBILE NELLA SEZIONE DEDICATA DELL'INSEGNAMENTO ALL'INTERNO DELLA PIATTAFORMA E-LEARNING DI ATENEO (HTTP://ELEARNING.UNISA.IT) ACCESSIBILE AGLI STUDENTI DEL CORSO TRAMITE LE CREDENZIALI UNICHE DI ATENEO.
Altre Informazioni
L'INSEGNAMENTO È EROGATO IN INGLESE.
  BETA VERSION Fonte dati ESSE3 [Ultima Sincronizzazione: 2022-11-21]