ADVANCED STATISTICAL MODELLING FOR BIG DATA

Michele LA ROCCA ADVANCED STATISTICAL MODELLING FOR BIG DATA

0222700010
DIPARTIMENTO DI SCIENZE AZIENDALI - MANAGEMENT & INNOVATION SYSTEMS
CORSO DI LAUREA MAGISTRALE
DATA SCIENCE E GESTIONE DELL'INNOVAZIONE
2022/2023

OBBLIGATORIO
ANNO CORSO 2
ANNO ORDINAMENTO 2020
PRIMO SEMESTRE
CFUOREATTIVITÀ
963LEZIONE
Obiettivi
ACQUISIRE (I) LA CONOSCENZA DELL'ANALISI DI MODELLI STATISTICI AVANZATI UTILI ALLA COMPRENSIONE DEI PROBLEMI E AL MIGLIORAMENTO DEI PROCESSI DECISIONALI; (II) CONOSCENZA DI MODELLI STATISTICI AVANZATI E STRUMENTI DI STATISTICAL LEARNING UTILI COME SUPPORTO ALLE DECISIONI RELATIVE A FENOMENI E SISTEMI IN CUI GRANDI QUANTITÀ DI DATI, VARIABILITÀ E INCERTEZZA IMPLICANO UN LIVELLO DI COMPLESSITÀ INGESTIBILE UTILIZZANDO TECNICHE TRADIZIONALI; (III) CAPACITÀ DI ANALIZZARE E INTERPRETARE DATI COMPLESSI E DI PRODURRE MODELLI PREDITTIVI E ANALITICI A SUPPORTO DELLE POLITICHE DI CONTROLLO E GESTIONE DI UN'AZIENDA, SIA NEL SETTORE PUBBLICO CHE IN QUELLO PRIVATO. TUTTI I MODELLI STATISTICI SARANNO PRESENTATI SIA COME STRUMENTI PREDITTIVI CHE ANALITICO/INTERPRETATIVI, PER ACQUISIRE UNA PROFONDA COMPRENSIONE DEI PROBLEMI IN UN PROCESSO DECISIONALE DI TIPO GENERALE. IN PARTICOLARE, GLI STUDENTI SVILUPPERANNO LA CAPACITÀ DI SPECIFICARE, STIMARE E VALIDARE UN'AMPIA CLASSE DI MODELLI STATISTICI QUANDO APPLICATI A STRUTTURE DATI COMPLESSE. UN FOCUS SPECIFICO SARÀ DATO AI MODERNI STRUMENTI DISPONIBILI PER GESTIRE E ANALIZZARE I BIG DATA E I LINGUAGGI DI PROGRAMMAZIONE STATISTICA DISPONIBILI PER SVILUPPARE E IMPLEMENTARE SOLUZIONI ANALITICHE EFFICACI. VERRANNO PRESENTATI E DISCUSSI DIVERSI CASI DI STUDIO PER CREARE LA CAPACITÀ DEGLI STUDENTI DI SFRUTTARE LE PROPRIE CONOSCENZE PER ANALIZZARE PROBLEMI E SET DI DATI REALI.
Prerequisiti
È NECESSARIA LA CONOSCENZA DI NOZIONI DI CALCOLO MATRICIALE, DI MATEMATICA GENERALE, DELLA PROGRAMMAZIONE DI BASE, DEL LINGUAGGIO STATISTICO R, DI PROBABILITÀ ED INFERENZA STATISTICA.
Contenuti
UN UNICO MODULO DI 60 (LM SCIENZE STATISTICHE PER LA FINANZA) E 63 ORE (LM DATA SCIENCE E GESTIONE DELL'INNOVAZIONE).

MODELLI DI REGRESSIONE, MODELLI PREDITTIVI E MODELLI ANALITICI. MODELLI PROBABILISTICI PER DATI NON-GAUSSIANI. LA FAMIGLIA ESPONENZIALE. MODELLI LINEARI GENERALIZZATI (GLM). MODELLI PER DATI GAUSSIANI. MODELLI PER DATI CONTINUI NON-GAUSSIANI. MODELLI PER DATI BINARI. MODELLI PER DATI CONTEGGIO. TWO-PART MODELS. MODELLI LINEARI E GLM PER BIG DATA. STIME DI MOLTI MODELLI SU DATASET DIFFUSI. STIMA IN PRESENZA DI ALTA DIMESIONALITÀ. STIME PENALIZZATE PER MODELLI GLM: RIDGE E LASSO. GENERALIZZAZIONE DEL LASSO. ELASTIC NET. THE GROUP LASSO. THE FUSED LASSO. STIMA DI MODELLI STATISTICI IN SPARK. MODELLI LINEARI E GLM PER BIG DATA IN R. STIME PENALIZZATE IN R. CASI STUDIO E APPLICAZIONI A PROBLEMI NOTEVOLI.
Metodi Didattici
IL CORSO PREVEDE 60 (LM SCIENZE STATISTICHE PER LA FINANZA) E 63 ORE (LM DATA SCIENCE E GESTIONE DELL'INNOVAZIONE). ORE DI DIDATTICA IN AULA. LA FREQUENZA PUR NON ESSENDO OBBLIGATORIA, DATA LA NATURA DEL CORSO, È FORTEMENTE CONSIGLIATA.
DURANTE LE LEZIONI SI AFFRONTERANNO TEMATICHE DI TIPO TEORICO AFFIANCATE COSTANTEMENTE DALLA PRESENTAZIONE DI CASI STUDIO MEDIANTE I QUALI SARANNO CHIARITE LE MODALITÀ DI IMPLEMENTAZIONE DELLE TECNICHE, I CONTESTI DI UTILIZZO DEI DIVERSI STRUMENTI E LE INTERPRETAZIONI POSSIBILI DEI RISULTATI OTTENUTI. LE ESERCITAZIONI PERTANTO COSTITUIRANNO PARTE INTEGRANTE DELLE LEZIONI PROGRAMMATE.
Verifica dell'apprendimento
LO STUDENTE VERRÀ VALUTATO DURANTE LA PROVA FINALE CHE SI TERRÀ NELLE DATE DI ESAME PREVISTE DAL DIPARTIMENTO.
DURANTE LA PROVA FINALE LO STUDENTE DOVRÀ SOSTENERE UNA PROVA SCRITTA (VALUTATA IN TRENTESIMI) E UNA PROVA ORALE CHE SI SVOLGERÀ TIPICAMENTE, NEI GIORNI IMMEDIATAMENTE SUCCESSIVI. LA DATA DELLA PROVA SCRITTA È QUELLA PREVISTA NEL CALENDARIO DI DIPARTIMENTO, IL GIORNO DELLA PROVA ORALE VIENE CONCORDATO CON GLI STUDENTI AL TERMINE DELLA PROVA SCRITTA.
LA PROVA SCRITTA (DURATA DI CIRCA 2 H) È VOLTA AD ACCERTARE LA CAPACITÀ DELLO STUDENTE DI UTILIZZARE GLI STRUMENTI SOFTWARE OGGETTO DEL CORSO, LE TECNICHE STATISTICHE SIA DI TIPO ESPLORATIVO CHE INFERENZIALE STUDIATE, PER INTERPRETARE E COMMENTARE I RISULTATI STATISTICI OTTENUTI. DURANTE LA PROVA SCRITTA, LO STUDENTE RICEVERÀ UNA TRACCIA D'ESAME E VERRÀ CHIESTO DI RISPONDERE A 5 DOMANDE (CIASCUNA CON UN PUNTEGGIO MASSIMO DI 6 PUNTI) SULL'INTERO PROGRAMMA DEL CORSO. LA PROVA ORALE (DELLA DURATA DI CIRCA 30 MINUTI) CONSISTE IN UN COLLOQUIO CON DOMANDE E DISCUSSIONE DELLA PROVA SCRITTA. IL VOTO FINALE (MIN 18, MAX 30 CON EVENTUALI LODE) VIENE ATTRIBUITO VALUTANDO I RISULTATI DELLE PROVE SCRITTE E ORALI IN CUI LA PADRONANZA DEI CONTENUTI DEL CORSO, L'ADEGUATEZZA DELLE DEFINIZIONI E DEI RIFERIMENTI TEORICI, LA CHIAREZZA DELL'ARGOMENTO, L'AMBITO DELLE COMPETENZE SPECIALISTICHE LINGUAGGIO.
L'ESAME NON PREVEDE PROVE INTERCORSO.
Testi
LECTURE NOTES, RISORSE WEB E ARTICOLI SUGGERITI DAL DOCENTE DURANTE IL CORSO SARANNO RESI DISPONIBILI A TUTTI GLI STUDENTI FREQUENTANTI
- GENERALIZED LINEAR MODELS FOR INSURANCE DATA, PIET DE JONG GILLIAN HELLER, CAMBRIDGE UNIVERSITY PRESS
- MASTERING SPARK WITH R, BY JAVIER LURASCHI, KEVIN KUO, EDGAR RUIZ, O'REILLY
Altre Informazioni
IL DOCENTE FORNISCE ULTERIORI SPIEGAZIONI E SUPPORTO METODOLOGICO AGLI STUDENTI DURANTE LE ORE DI RICEVIMENTO.
GIORNI, ORARI E LUOGO DEL RICEVIMENTO, NONCHÉ LE EVENTUALI VARIAZIONI, SONO COMUNICATE SULLA PAGINA WEB DEL DOCENTE.
E’ POSSIBILE CONCORDARE UN APPUNTAMENTO AL DI FUORI DEGLI ORARI PREVISTI PER IL RICEVIMENTO INVIANDO UNA MAIL ALL’INDIRIZZO MAIL DEL DOCENTE.
  BETA VERSION Fonte dati ESSE3 [Ultima Sincronizzazione: 2024-08-21]