STATISTICA INFERENZIALE PER BIG DATA

Michele LA ROCCA STATISTICA INFERENZIALE PER BIG DATA

0522500079
DIPARTIMENTO DI INFORMATICA
CORSO DI LAUREA MAGISTRALE
INFORMATICA
2016/2017

ANNO CORSO 2
ANNO ORDINAMENTO 2015
PRIMO SEMESTRE
CFUOREATTIVITÀ
648LEZIONE
Obiettivi
GLI STUDENTI IMPARERANNO SIA LE TECNICHE DI INFERENZA STATISTICA CLASSICA SIA LE PRINCIPALI TECNICHE DI ESPLORAZIONE ED ANALISI DI DATASETS CARATTERIZZATI DA ALTA DIMENSIONALITÀ, SIA IN TERMINI DI NUMERO DI OSSERVAZIONI CHE IN TERMINI DI NUMERO DI FEATURES.
GLI STUDENTI APPRENDERANNO SIA I CONCETTI TEORICI DI BASE SIA LE ABILITÀ COMPUTAZIONALI NECESSARIE AD UNA LORO CORRETTA IMPLEMENTAZIONE, INCLUSE LE TECNICHE CHE RENDONO LE ANALISI SCALABILI ED APPLICABILI A DATASET DISTRIBUITI.

GLI STUDENTI ACQUISIRANNO LA CONOSCENZA DEGLI STRUMENTI DI ANALISI INFERENZIALE UTILI PER LA COMPRENSIONE DELLE PROBLEMATICHE E IL MIGLIORAMENTO DEI PROCESSI DECISIONALI CONNESSI; CONOSCENZA DEI METODI DI TIPO DESCRITTIVO-ESPLORATIVO E INFERENZIALE, NECESSARI PER SUPPORTARE LE DECISIONI RELATIVE A FENOMENI E/O A SISTEMI IN CUI GRANDI QUANTITÀ DI DATI, VARIABILITÀ E INCERTEZZA DETERMINANO UN LIVELLO DI COMPLESSITÀ NON AFFRONTABILE CON ALTRE TECNICHE; ACQUISIRANNO CAPACITÀ DI ANALIZZARE ED INTERPRETARE INFORMAZIONI DI NATURA QUANTITATIVA, E DI PRODURRE INDICATORI, MODELLI STATISTICI E REPORT DI SUPPORTO ALL'ATTIVITÀ DECISIONALE IN AMBITI DIVERSI.

Prerequisiti
È NECESSARIA LA CONOSCENZA DELLE PRINCIPALI NOZIONI DI ANALISI MATEMATICA E DI CALCOLO MATRICIALE
Contenuti
ANALISI ESPLORATIVA DEI DATI (EDA). LA MATRICE DEI DATI. DISTRIBUZIONE DEI DATI E STIME DI DENSITÀ KERNEL. VERIFICHE DELLA FORMA FUNZIONALE. TRASFORMAZIONE DEI DATI. RELAZIONI TRA VARIABILI STATISTICHE. DIAGRAMMI SCATTER, BUBBLE PLOTS, COLORING AND FACETING PER DATI MULTIVARIATI. MATRICI DI CORRELAZIONE E LORO RAPPRESENTAZIONE GRAFICA. REGRESSIONE NONPARAMETRICA. STRUMENTI PER EDA (EXPLORATORY DATA ANALYSIS) IN R E CASI STUDIO. STRUMENTI SOFTWARE PER LA GESTIONE E L'ANALISI DI BIGDATA.

LA LOGICA INFERENZIALE. PARAMETRI E STATISTICHE. CAMPIONI CASUALI E DISTRIBUZIONI CAMPIONARIE. TEOREMI DI CONVERGENZA ASINTOTICA. STIME PUNTUALI E PER INTERVALLO. VERIFICA DI IPOTESI. OUTLIERS E ROBUSTEZZA. VERIFICA DI IPOTESI PER GRANDI CAMPIONI. VERIFICA DI IPOTESI IN CONDIZIONI DI ALTA DIMENSIONALITÀ. PROBLEMI DI TEST MULTIPLO. CASI STUDIO IN R.

MODELLI DI REGRESSIONE PER LO STUDIO DELLA DIPENDENZA. INFERENZA, VALIDAZIONE ED UTILIZZO DEL MODELLO. INFERENZA ASINTOTICA NEL MODELLO DI REGRESSIONE. IL PROBLEMA DELLA SELEZIONE DELLE VARIABILI. IL METODO LASSO E LE SUE GENERALIZZAZIONI. OUTLIERS E ROBUSTEZZA. CASI STUDIO CON R.
Metodi Didattici
L'INSEGNAMENTO SI COMPONE DI 30 ORE DI LEZIONI TEORICHE E 18 ORE DI ESERCITAZIONI E ANALISI DI STUDI DI CASO.
Verifica dell'apprendimento
L’ESAME CONSISTERÀ IN UNA VERIFICA, SIA SCRITTA CHE ORALE, SUI CONTENUTI DEL CORSO. NELLA VALUTAZIONE DELL'ESAME SI TERRÀ CONTO, OLTRE CHE DELLA CONOSCENZA DELLA MATERIA TRATTATA, ANCHE DELLA CAPACITÀ ESPOSITIVA, DELL'ACCURATEZZA DEL LINGUAGGIO E DELLA CAPACITÀ DI UTILIZZARE IN MODO CRITICO GLI STRUMENTI STATISTICI ACQUISITI.
Testi
LECTURE NOTES E ARTICOLI SUGGERITI DAL DOCENTE DURANTE IL CORSO E DISPONIBILI SULLA PAGINA DOCENTE
Altre Informazioni
LA FREQUENZA AL CORSO PUR NON OBBLIGATORIA, È VIVAMENTE CONSIGLIATA PER LE CARATTERISTICHE DELLA DISCIPLINA. LO STUDENTE NON FREQUENTANTE DEVE PREPARARE AUTONOMAMENTE IL PROGRAMMA PREVISTO.
  BETA VERSION Fonte dati ESSE3 [Ultima Sincronizzazione: 2019-03-11]