ADVANCED STATISTICAL MODELING FOR BIG DATA

Michele LA ROCCA ADVANCED STATISTICAL MODELING FOR BIG DATA

0222800010
DIPARTIMENTO DI SCIENZE AZIENDALI - MANAGEMENT & INNOVATION SYSTEMS
CORSO DI LAUREA MAGISTRALE
DATA SCIENCE E GESTIONE DELL'INNOVAZIONE
2023/2024

OBBLIGATORIO
ANNO CORSO 2
ANNO ORDINAMENTO 2022
PRIMO SEMESTRE
CFUOREATTIVITÀ
963LEZIONE
Obiettivi
CONOSCENZE E CAPACITÀ DI COMPRENSIONE

L'INSEGNAMENTO INTENDE FORNIRE:
- LA CONOSCENZA DELL'ANALISI DI MODELLI STATISTICI AVANZATI UTILI ALLA COMPRENSIONE DEI PROBLEMI E AL MIGLIORAMENTO DEI PROCESSI DECISIONALI;
- CONOSCENZA DI MODELLI STATISTICI AVANZATI E STRUMENTI DI STATISTICAL LEARNING UTILI COME SUPPORTO ALLE DECISIONI RELATIVE A FENOMENI E SISTEMI IN CUI GRANDI QUANTITÀ DI DATI, VARIABILITÀ E INCERTEZZA IMPLICANO UN LIVELLO DI COMPLESSITÀ INGESTIBILE UTILIZZANDO TECNICHE TRADIZIONALI;
- CAPACITÀ DI ANALIZZARE E INTERPRETARE DATI COMPLESSI E DI PRODURRE MODELLI PREDITTIVI E ANALITICI A SUPPORTO DELLE POLITICHE DI CONTROLLO E GESTIONE DI UN'AZIENDA, SIA NEL SETTORE PUBBLICO CHE IN QUELLO PRIVATO.

CAPACITÀ DI APPLICARE CONOSCENZA E COMPRENSIONE

TUTTI I MODELLI STATISTICI SARANNO PRESENTATI SIA COME STRUMENTI PREDITTIVI CHE ANALITICO/INTERPRETATIVI, PER ACQUISIRE UNA PROFONDA COMPRENSIONE DEI PROBLEMI IN UN PROCESSO DECISIONALE DI TIPO GENERALE.

IN PARTICOLARE, GLI STUDENTI SVILUPPERANNO LA CAPACITÀ DI SPECIFICARE, STIMARE E VALIDARE UN'AMPIA CLASSE DI MODELLI STATISTICI QUANDO APPLICATI A STRUTTURE DATI COMPLESSE.

UN FOCUS SPECIFICO SARÀ DATO AI MODERNI STRUMENTI DISPONIBILI PER GESTIRE E ANALIZZARE I BIG DATA E I LINGUAGGI DI PROGRAMMAZIONE STATISTICA DISPONIBILI PER SVILUPPARE E IMPLEMENTARE SOLUZIONI ANALITICHE EFFICACI. VERRANNO PRESENTATI E DISCUSSI DIVERSI CASI DI STUDIO PER CREARE LA CAPACITÀ DEGLI STUDENTI DI SFRUTTARE LE PROPRIE CONOSCENZE PER ANALIZZARE PROBLEMI E SET DI DATI REALI.

Prerequisiti
È NECESSARIA LA CONOSCENZA DI NOZIONI DI CALCOLO MATRICIALE, DI MATEMATICA GENERALE, DELLA PROGRAMMAZIONE DI BASE, DEL LINGUAGGIO STATISTICO R, DI PROBABILITÀ ED INFERENZA STATISTICA.
Contenuti
MODELLI DI REGRESSIONE, MODELLI PREDITTIVI E MODELLI ANALITICI. MODELLI PROBABILISTICI PER DATI NON-GAUSSIANI. LA FAMIGLIA ESPONENZIALE. MODELLI LINEARI GENERALIZZATI (GLM) (10H). MODELLI PER DATI GAUSSIANI. MODELLI PER DATI CONTINUI NON-GAUSSIANI. (8H) MODELLI PER DATI BINARI E CATEGORIALI (10H). MODELLI PER DATI CONTEGGIO. TWO-PART MODELS (8H). MODELLI LINEARI E GLM PER BIG DATA. STIME DI MOLTI MODELLI SU DATASET DIFFUSI. (8H) STIMA IN PRESENZA DI ALTA DIMENSIONALITÀ. STIME PENALIZZATE PER MODELLI GLM: RIDGE E LASSO. GENERALIZZAZIONE DEL LASSO. ELASTIC NET. THE GROUP LASSO. THE FUSED LASSO (8H). STIMA DI MODELLI STATISTICI IN SPARK. MODELLI LINEARI E GLM PER BIG DATA IN R. STIME PENALIZZATE IN R . CASI STUDIO E APPLICAZIONI A PROBLEMI NOTEVOLI (8H). PER GLI STUDENTI DI DATA SCIENCE E GESTIONE DELL’INNOVAZIONE È PREVISTO UNA ESERCITAZIONE FINALE DI 3 ORE IN CUI VERRÀ DISCUSSO UN CASO STUDIO SU PROBLEMI DI NATURALA AZIENDALE.
Metodi Didattici
IL CORSO PREVEDE 60 ORE DI DIDATTICA IN AULA. PER GLI STUDENTI DELLA LM IN DATA SCIENCE E GESTIONE DELL’INNOVAZIONE LA DURATA DEL CORSO È FISSATA IN 63 ORE DI DIDATTICA FRONTALE. LA FREQUENZA PUR NON ESSENDO OBBLIGATORIA, DATA LA NATURA DEL CORSO, È FORTEMENTE CONSIGLIATA.
DURANTE LE LEZIONI SI AFFRONTERANNO TEMATICHE DI TIPO TEORICO AFFIANCATE COSTANTEMENTE DALLA PRESENTAZIONE DI CASI STUDIO MEDIANTE I QUALI SARANNO CHIARITE LE MODALITÀ DI IMPLEMENTAZIONE DELLE TECNICHE, I CONTESTI DI UTILIZZO DEI DIVERSI STRUMENTI E LE INTERPRETAZIONI POSSIBILI DEI RISULTATI OTTENUTI. LE ESERCITAZIONI PERTANTO COSTITUIRANNO PARTE INTEGRANTE DELLE LEZIONI PROGRAMMATE.
Verifica dell'apprendimento
LO STUDENTE SARÀ VALUTATO DURANTE LA PROVA FINALE CHE SI TERRÀ IN CORRISPONDENZA DELLE DATE DEGLI ESAMI CALENDARIZZATE DAL DIPARTIMENTO.
DURANTE LA PROVA FINALE LO STUDENTE DOVRÀ DISCUTERE UN PROJECT WORK E SOSTENERE UNA PROVA ORALE. IL PROJECT WORK DOVRÀ ESSERE CONCORDATO CON IL DOCENTE DURANTE IL CORSO SEGUENDO LINEE GUIDA DETTAGLIATE CHE SARANNO FORNITE ALL'INIZIO DEL CICLO DI LEZIONI O SU RICHIESTA DEGLI STUDENTI.
Testi
LECTURE NOTES, RISORSE WEB E ARTICOLI SUGGERITI DAL DOCENTE DURANTE IL CORSO SARANNO RESI DISPONIBILI A TUTTI GLI STUDENTI FREQUENTANTI
- GENERALIZED LINEAR MODELS FOR INSURANCE DATA, PIET DE JONG GILLIAN HELLER, CAMBRIDGE UNIVERSITY PRESS
- MASTERING SPARK WITH R, BY JAVIER LURASCHI, KEVIN KUO, EDGAR RUIZ, O'REILLY
Altre Informazioni
IL DOCENTE FORNISCE ULTERIORI SPIEGAZIONI E SUPPORTO METODOLOGICO AGLI STUDENTI DURANTE LE ORE DI RICEVIMENTO.
GIORNI, ORARI E LUOGO DEL RICEVIMENTO, NONCHÉ LE EVENTUALI VARIAZIONI, SONO COMUNICATE SULLA PAGINA WEB DEL DOCENTE.
E’ POSSIBILE CONCORDARE UN APPUNTAMENTO AL DI FUORI DEGLI ORARI PREVISTI PER IL RICEVIMENTO INVIANDO UNA MAIL ALL’INDIRIZZO MAIL DEL DOCENTE.
  BETA VERSION Fonte dati ESSE3 [Ultima Sincronizzazione: 2024-12-17]