Michele LA ROCCA | INFERENTIAL STATISTICS FOR BIG DATA
Michele LA ROCCA INFERENTIAL STATISTICS FOR BIG DATA
cod. 0222600009
INFERENTIAL STATISTICS FOR BIG DATA
0222600009 | |
DIPARTIMENTO DI SCIENZE AZIENDALI - MANAGEMENT & INNOVATION SYSTEMS | |
CORSO DI LAUREA MAGISTRALE | |
BUSINESS INNOVATION AND INFORMATICS - BUSINESS, INNOVAZIONE ED INFORMATICA | |
2019/2020 |
ANNO CORSO 2 | |
ANNO ORDINAMENTO 2016 | |
PRIMO SEMESTRE |
SSD | CFU | ORE | ATTIVITÀ | |
---|---|---|---|---|
SECS-S/01 | 5 | 30 | LEZIONE |
Obiettivi | |
---|---|
GLI STUDENTI IMPARERANNO SIA LE TECNICHE DI INFERENZA STATISTICA CLASSICA SIA LE PRINCIPALI TECNICHE DI ESPLORAZIONE ED ANALISI DI DATASETS CARATTERIZZATI DA ALTA DIMENSIONALITÀ, SIA IN TERMINI DI NUMERO DI OSSERVAZIONI CHE IN TERMINI DI NUMERO DI FEATURES. GLI STUDENTI APPRENDERANNO SIA I CONCETTI TEORICI DI BASE SIA LE ABILITÀ COMPUTAZIONALI NECESSARIE AD UNA LORO CORRETTA IMPLEMENTAZIONE, INCLUSE LE TECNICHE CHE RENDONO LE ANALISI SCALABILI ED APPLICABILI A DATASET DISTRIBUITI. PIÙ IN DETTAGLIO, GLI STUDENTI ACQUISIRANNO: (I) LA CONOSCENZA DEGLI STRUMENTI DI ANALISI INFERENZIALE UTILI PER LA COMPRENSIONE DELLE PROBLEMATICHE E IL MIGLIORAMENTO DEI PROCESSI DECISIONALI CONNESSI; (II) LA CONOSCENZA DEI METODI DI TIPO DESCRITTIVO-ESPLORATIVO E INFERENZIALE, NECESSARI PER SUPPORTARE LE DECISIONI RELATIVE A FENOMENI E/O A SISTEMI IN CUI GRANDI QUANTITÀ DI DATI, VARIABILITÀ E INCERTEZZA DETERMINANO UN LIVELLO DI COMPLESSITÀ NON AFFRONTABILE CON ALTRE TECNICHE; (III) LA CAPACITÀ DI ANALIZZARE ED INTERPRETARE INFORMAZIONI DI NATURA QUANTITATIVA, E DI PRODURRE INDICATORI, MODELLI STATISTICI E REPORT DI SUPPORTO ALL'ATTIVITÀ DECISIONALE IN AMBITI DIVERSI. CON TECNICHE STATISTICHE DI TIPO CLASSICO. CONOSCENZE E CAPACITÀ DI COMPRENSIONE: - DELLE PRINCIPALI TECNICHE DI ANALISI E VISUALIZZAZIONE DEI DATI (SIA SMALL CHE BIGDATA), ANCHE QUANDO DISPONIBILI SU ARCHITETTURE DI TIPO DISTRIBUITO - DELLE TECNICHE DI ANALISI DEI DATI DI TIPO DIVIDE & CONQUER E SPLIT-APPLY-COMBINE - DEI PARADIGMA TIPO MAPREDUCE COME IMPLEMENTATI IN APACHE HADOOP O SPARK PER L’ANALISI DEI DATI - DELLE PRINCIPALI TECNICHE DI INFERENZA STATISTICA, IN PRESENZA DI BIGDATA E COMUNQUE DATI CON STRUTTURA COMPLESSA - DELLE PRINCIPALI TECNICHE PER LA COSTRUZIONE DI MODELLI PREDITTIVI IN PRESENZA DI DATI AD ALTA DIMENSIONALITÀ CAPACITÀ DI APPLICARE CONOSCENZA E COMPRENSIONE: - LA CAPACITÀ DI ANALIZZARE ED INTERPRETARE INFORMAZIONI DI NATURA QUANTITATIVA (DI TIPO COMPLESSO), E DI PRODURRE INDICATORI, MODELLI STATISTICI E REPORT DI SUPPORTO ALL'ATTIVITÀ DECISIONALE IN AMBITI DIVERSI. - CAPACITÀ DI ANALIZZARE E VALUTARE AUTONOMAMENTE DOCUMENTI E REPORT CHE INCLUDONO INFORMAZIONI DI TIPO QUANTITATIVO, FORMULANDO GIUDIZI CRITICI SULLE MODALITÀ DI RACCOLTA DEI DATI, SULLE MODALITÀ DI ELABORAZIONE DELLE INFORMAZIONI RACCOLTE, SULLE TECNICHE DI INFERENZA E SUI MODELLI PREDITTIVI COSTRUITI NONCHÉ SULLA VALIDITÀ, INTERNA ED ESTERNA, DELLE CONCLUSIONI RAGGIUNTE. - CAPACITÀ DI PRESENTARE CON PROPRIETÀ DI LINGUAGGIO, IN MODO EFFICACE E CHIARO, L'INFORMAZIONE DI NATURA QUANTITATIVA, SIA IN FORMA ORALE CHE SCRITTA. GLI STUDENTI SARANNO SOLLECITATI AD APPRENDERE LA STRUTTURA LOGICO-CONCETTUALE NECESSARIA PER L'ANALISI E L'ELABORAZIONE DI INFORMAZIONI DI TIPO QUANTITATIVO, FORNENDO ALTRESÌ LA CAPACITÀ DI RACCORDARE LE COMPETENZE ACQUISITE CON QUELLE APPRESE NEI CORSI DI STUDIO PIÙ AFFINI. |
Prerequisiti | |
---|---|
È NECESSARIA LA CONOSCENZA DI NOZIONI DI CALCOLO MATRICIALE, DELLA PROGRAMMAZIONE DI BASE, DI PROBABILITÀ ED INFERENZA STATISTICA (AL LIVELLO DI UN CORSO INTRODUTTIVO DI STATISTICA OPPURE DI PROBABILITÀ E INFERENZA STATISTICA). |
Contenuti | |
---|---|
ANALISI DEI DATI E BIG DATA. BIG DATA: POTENZIALE E PROBLEMI. LE CARATTERISTICHE DEI BIG DATA E CONSEGUENZE SULLE TECNICHE DI ANALISI STATISTICA. IL PROBLEMA DELLA DIMENSIONE DEI DATI (VOLUME). IL PROBLEMA DELLA QUALITÀ DEI DATI (VERACITY). TECNICHE DI RACCOLTA DEI DATI. TECNICHE DI CAMPIONAMENTO (CENNI). ERRORI DI CAMPIONAMENTO E POTENZIALI FONTI DI DISTORSIONI. ESPERIMENTI E QUASI-ESPERIMENTI. STUDI LONGITUDINALI, STUDI PROSPETTICI E RETROSPETTIVI, STUDI CASE-CONTROL E PER COORTI. (4 H). TOOLS PER L’ANALISI DEI DATI. IL LINGUAGGIO STATISTICO R. PRINCIPALI CARATTERISTICHE DEL LINGUAGGIO. STRUTTURE DATI E STRUTTURE DI CONTROLLO. FUNZIONI E LIBRERIE. L’AMBIENTE R STUDIO. IL LINGUAGGIO MARKDOWN. ALTRI LINGUAGGI DI MARKUP UTILI PER L’ANALISI DEI DATI. TECNICHE DI REPORTING E DI REPORTING DINAMICO. (8 H) DATA WRANGLING. IMPORTAZIONE E TRASFORMAZIONE DEI DATI IN R. L’ECOSISTEMA TIDYVERSE. APPROCCI DI ANALISI DI TIPO MAPREDUCE, DIVIDE & CONQUER, SPLIT-APPLY-COMBINE. HADOOP E SPARK. INTERFACCE TRA SPARK E R. (8 H) DATA VISUALIZATION. LA MATRICE DEI DATI. DISTRIBUZIONI DEI DATI E STIME DI DENSITÀ KERNEL. VERIFICHE SULLA FORMA DISTRIBUZIONE (GAUSSIANIETÀ). RELAZIONE TRA VARIABILI STATISTICHE. DIAGRAMMI SCATTER. TECNICHE DI SMOOTHING PARAMETRICHE E NONPARAMETRICHE. BUBBLE PLOTS. TECNICHE DI CONDITIONING, COLORING E DI FACETING PER LA RAPPRESENTAZIONE DI DATI MULTIVARIATI. MATRICI DI CORRELAZIONE E LORO RAPPRESENTAZIONE GRAFICA. IL PROBLEMA DEI VALORI ANOMALI E DEI MISSING DATA. VISUALIZZAZIONE DI SERIE STORICHE. TECNICHE DI VISUALIZZAZIONE PER BIGDATA IN R. GRAFICI INTERATTIVI E DINAMICI. CASE STUDIES. (10H) INFERENZA STATISTICA. LA LOGICA INFERENZIALE. PARAMETRI E STATISTICHE. CAMPIONI CASUALI E DISTRIBUZIONI CAMPIONARIE. STIMATORI E RELATIVE PROPRIETÀ. STIME PUNTUALI E STIME PER INTERVALLO. LA VERIFICA DI IPOTESI STATISTICHE. TEST SUI PARAMETRI DI UNA POPOLAZIONE NORMALE. TEST SU CORRELAZIONE. ROBUSTEZZA E INFERENZA STATISTICA. TEST NONPARAMETRICI. IL PROBLEMA DEI TEST MULTIPLI E DELL’ALTA DIMENSIONALITÀ NEI TEST. FWE E FDR. PROCEDURE DI CONTROLLO PER FWE E FDR. CASE STUDIES CON R (12 H) MODELLI PREDITTIVI. IL MODELLO DI REGRESSIONE. INFERENZA, VALIDAZIONE ED UTILIZZO DEL MODELLO. IL PROBLEMA DELLA SELEZIONE DELLE VARIABILI. PREVISIONE E INTERVALLI DI PREVISIONE. IL PROBLEMA DELL’ALTA DIMENSIONALITÀ. RIDGE REGRESSION. CROSS-VALIDATION PER LA SELEZIONE DEI PARAMETRI DI TUNING. IL METODO LASSO E SUE GENERALIZZAZIONI. MODELLI DI REGRESSIONE PER DATI DISCRETI E LORO UTILIZZO IN DATASET AD ALTA DIMENSIONALITÀ. CASE STUDIES CON R (18 H) |
Metodi Didattici | |
---|---|
IL CORSO PREVEDE 60 ORE DI DIDATTICA IN AULA. LA FREQUENZA PUR NON ESSENDO OBBLIGATORIA, DATA LA NATURA DEL CORSO, È FORTEMENTE CONSIGLIATA. DURANTE LE LEZIONI SI AFFRONTERANNO TEMATICHE DI TIPO TEORICO AFFIANCATE COSTANTEMENTE DALLA PRESENTAZIONE DI CASI STUDIO MEDIANTE I QUALI SARANNO CHIARITE LE MODALITÀ DI IMPLEMENTAZIONE DELLE TECNICHE, I CONTESTI DI UTILIZZO DEI DIVERSI STRUMENTI E LE INTERPRETAZIONI POSSIBILI DEI RISULTATI OTTENUTI. LE ESERCITAZIONI PERTANTO COSTITUIRANNO PARTE INTEGRANTE DELLE LEZIONI PROGRAMMATE. |
Verifica dell'apprendimento | |
---|---|
LO STUDENTE SARÀ VALUTATO DURANTE LA PROVA FINALE CHE SI TERRÀ IN CORRISPONDENZA DELLE DATE DEGLI ESAMI CALENDARIZZATE DAL DIPARTIMENTO. DURANTE LA PROVA FINALE LO STUDENTE DOVRÀ SOSTENERE UNA PROVA SCRITTA (VALUTATA IN TRENTESIMI) E UNA PROVA ORALE CHE SI TERRÀ, TIPICAMENTE, NEI GIORNI IMMEDIATAMENTE SUCCESSIVI. LA DATA DELLA PROVA SCRITTA È QUELLA PREVISTA DAL CALENDARIO DI DIPARTIMENTO, IL GIORNO DELLA PROVA ORALE È CONCORDATO CON GLI STUDENTI AL TERMINE DELLA PROVA SCRITTA. LA PROVA SCRITTA (DURATA DI CIRCA 2 H) È TESA AD ACCERTARE LA CAPACITÀ DELLO STUDENTE DI UTILIZZARE GLI STRUMENTI SOFTWARE OGGETTI DEL CORSO, LE TECNICHE STATISTICHE SIA DI TIPO DESCRITTIVO CHE INFERENZIALI STUDIATE, DI INTERPRETARE E COMMENTARE I RISULTATI STATISTICI OTTENUTI. DURANTE LA PROVA SCRITTA LO STUDENTE RICEVERÀ UNA TRACCIA D’ESAME E SARÀ CHIAMATO A RISPONDERE A 5 DOMANDE (OGNUNA CON UN PUNTEGGIO MASSIMO PARI A 6 PUNTI) SULL’INTERO PROGRAMMA DEL CORSO, UTILIZZANDO UN DATASET FORNITO IN SEDE DI ESAME. LA PROVA ORALE (DURATA DI CIRCA 30 MINUTI) CONSISTE DI UN COLLOQUIO CON DOMANDE E DISCUSSIONE DELL’ELABORATO SCRITTO. IL VOTO FINALE (MIN 18, MAX 30 CON EVENTUALE LODE) È ATTRIBUITO VALUTANDO GLI ESITI DELLA PROVA SCRITTA E DELLA PROVA ORALE IN CUI SARÀ VALUTATA LA PADRONANZA DEI CONTENUTI DEL CORSO, APPROPRIATEZZA DELLE DEFINIZIONI E DEI RIFERIMENTI TEORICI, CHIAREZZA DELL’ARGOMENTARE, DOMINIO DEL LINGUAGGIO SPECIALISTICO. L'ESAME NON PREVEDE PROVE INTERCORSO. |
Testi | |
---|---|
LECTURE NOTES E ARTICOLI SUGGERITI DAL DOCENTE DURANTE IL CORSO SARANNO RESI DISPONIBILI A TUTTI GLI STUDENTI FREQUENTANTI. PER RISPONDERE IN MANIERA FLESSIBILE ALLE SPECIFICHE ESIGENZE DI OGNI SINGOLO STUDENTE, IL DOCENTE SI RISERVA LA POSSIBILITÀ DI CONSIGLIARE LETTURE ALTERNATIVE O AGGIUNTIVE DURANTE LE LEZIONI AGLI STUDENTI CHE NE FARANNO RICHIESTA. |
Altre Informazioni | |
---|---|
IL DOCENTE FORNISCE ULTERIORI SPIEGAZIONI E SUPPORTO METODOLOGICO AGLI STUDENTI DURANTE LE ORE DI RICEVIMENTO. GIORNI, ORARI E LUOGO DEL RICEVIMENTO, NONCHÉ LE EVENTUALI VARIAZIONI, SONO COMUNICATE SULLA PAGINA WEB DEL DOCENTE. E’ POSSIBILE CONCORDARE UN APPUNTAMENTO AL DI FUORI DEGLI ORARI PREVISTI PER IL RICEVIMENTO INVIANDO UNA MAIL ALL’INDIRIZZO MAIL DEL DOCENTE. |
BETA VERSION Fonte dati ESSE3 [Ultima Sincronizzazione: 2021-02-19]