METODI STATISTICI PER I BIG DATA

Michele LA ROCCA METODI STATISTICI PER I BIG DATA

0212800016
DIPARTIMENTO DI SCIENZE ECONOMICHE E STATISTICHE
CORSO DI LAUREA
STATISTICA PER I BIG DATA
2024/2025

OBBLIGATORIO
ANNO CORSO 3
ANNO ORDINAMENTO 2018
PRIMO SEMESTRE
CFUOREATTIVITÀ
530LEZIONE
AppelloData
LA ROCCA10/12/2024 - 10:30
LA ROCCA10/12/2024 - 10:30
Obiettivi
IL CORSO HA LO SCOPO DI INTRODURRE I PRINCIPALI METODI, MODELLI E TECNICHE DI ANALISI STATISTICA
DI PROBLEMI REALI, CON PARTICOLARE RIFERIMENTO AI CASI IN CUI LA DIMENSIONE DEL DATASET ALLA BASE DEL PROBLEMA È NOTEVOLE E NON PUÒ ESSERE GESTITA CON I METODI STATISTICI STANDARD.
CONOSCENZA E CAPACITÀ DI COMPRENSIONE
IL CORSO INTENDE INTRODURRE LO STUDENTE ALLE PRINCIPALI TECNICHE DI ESPLORAZIONE ED ANALISI DI DATASETS CARATTERIZZATI DA ALTA DIMENSIONALITÀ, SIA IN TERMINI DI NUMERO DI OSSERVAZIONI CHE IN TERMINI DI NUMERO DI FEATURES. IN PARTICOLARE, GLI STUDENTI APPRENDERANNO SIA I CONCETTI TEORICI DI BASE SIA LE ABILITÀ COMPUTAZIONALI NECESSARIE AD UNA LORO CORRETTA IMPLEMENTAZIONE, INCLUSE LE TECNICHE CHE RENDONO LE ANALISI SCALABILI ED APPLICABILI A DATASET DISTRIBUITI. GLI ARGOMENTI TRATTATI DURANTE IL CORSO SARANNO ACCOMPAGNATI DA ESERCITAZIONI SU DATI REALI, SVILUPPATI MEDIANTE SOFTWARE STATISTICO.
CAPACITÀ DI APPLICARE CONOSCENZA E COMPRENSIONE
LA FREQUENZA AL CORSO PERMETTERÀ ALLO STUDENTE DI ACQUISIRE LE SEGUENTI ABILITÀ: (I) CAPACITÀ DI UTILIZZO DI METODI DI TIPO DESCRITTIVO-ESPLORATIVO E INFERENZIALE, NECESSARI PER SUPPORTARE LE DECISIONI RELATIVE A FENOMENI E/O A SISTEMI IN CUI GRANDI QUANTITÀ DI DATI, VARIABILITÀ E INCERTEZZA DETERMINANO UN LIVELLO DI COMPLESSITÀ NON AFFRONTABILE CON ALTRE TECNICHE; (II) LA CAPACITÀ DI ANALIZZARE ED INTERPRETARE INFORMAZIONI DI NATURA QUANTITATIVA, E DI PRODURRE INDICATORI, MODELLI STATISTICI E REPORT DI SUPPORTO ALL'ATTIVITÀ DECISIONALE PARTICOLARMENTE UTILI IN AMBITI CARATTERIZZATI DA ALTA DIMENSIONALITÀ.
Prerequisiti
È NECESSARIA LA CONOSCENZA DI NOZIONI DI CALCOLO MATRICIALE, DELLA PROGRAMMAZIONE DI BASE, DEL LINGUAGGIO STATISTICO R, DI PROBABILITÀ ED INFERENZA STATISTICA, DEI MODELLI DI REGRESSIONE.
Contenuti
ANALISI DEI DATI E BIG DATA. BIG DATA: POTENZIALE E PROBLEMI. LE CARATTERISTICHE DEI BIG DATA E LE CONSEGUENZE SUI METODI DI ANALISI DEI DATI. APPROCCI DI ANALISI DI TIPO MAPREDUCE, DIVIDE & CONQUER, SPLIT-APPLY-COMBINE (6H). PROGRAMMAZIONE FUNZIONALE IN R. HADOOP E SPARK. USO DI SPARK IN R. IL PACKAGE SPARKLYR (6H). DATA WRANGLING SU LARGE DATASETS E DATASETS DISTRIBUITI. TECNICHE DI VISUALIZZAZIONE PER BIG DATA IN R. CASE STUDIES IN R (8H).
MODELLI DI REGRESSIONE PER BIG DATA. STIME PENALIZZATE: RIDGE, LASSO E ELASTIC NET. MODELLI DI REGRESSIONE PER BIG DATA CON SPARKLYR. CASE STUDIES CON R (10H).
Metodi Didattici
IL CORSO PREVEDE 30 ORE DI DIDATTICA IN AULA. LA FREQUENZA PUR NON ESSENDO OBBLIGATORIA, DATA LA NATURA DEL CORSO, È FORTEMENTE CONSIGLIATA.
DURANTE LE LEZIONI SI AFFRONTERANNO TEMATICHE DI TIPO TEORICO AFFIANCATE COSTANTEMENTE DALLA PRESENTAZIONE DI CASI STUDIO MEDIANTE I QUALI SARANNO CHIARITE LE MODALITÀ DI IMPLEMENTAZIONE DELLE TECNICHE, I CONTESTI DI UTILIZZO DEI DIVERSI STRUMENTI E LE INTERPRETAZIONI POSSIBILI DEI RISULTATI OTTENUTI. LE ESERCITAZIONI PERTANTO COSTITUIRANNO PARTE INTEGRANTE DELLE LEZIONI PROGRAMMATE.
Verifica dell'apprendimento
LO STUDENTE SARÀ VALUTATO DURANTE LA PROVA FINALE CHE SI TERRÀ IN CORRISPONDENZA DELLE DATE DEGLI ESAMI CALENDARIZZATE DAL DIPARTIMENTO.
DURANTE LA PROVA FINALE LO STUDENTE DOVRÀ SOSTENERE UNA PROVA SCRITTA (VALUTATA IN TRENTESIMI) E UNA PROVA ORALE CHE SI TERRÀ, TIPICAMENTE, NEI GIORNI IMMEDIATAMENTE SUCCESSIVI. LA DATA DELLA PROVA SCRITTA È QUELLA PREVISTA DAL CALENDARIO DI DIPARTIMENTO, IL GIORNO DELLA PROVA ORALE È CONCORDATO CON GLI STUDENTI AL TERMINE DELLA PROVA SCRITTA.
LA PROVA SCRITTA (DURATA DI CIRCA 90 MINUTI) È TESA AD ACCERTARE LA CAPACITÀ DELLO STUDENTE DI UTILIZZARE GLI STRUMENTI SOFTWARE OGGETTO DEL CORSO, LE TECNICHE STATISTICHE SIA DI TIPO ESPLORATIVO CHE INFERENZIALI STUDIATE, DI INTERPRETARE E COMMENTARE I RISULTATI STATISTICI OTTENUTI. DURANTE LA PROVA SCRITTA LO STUDENTE RICEVERÀ UNA TRACCIA D’ESAME E SARÀ CHIAMATO A RISPONDERE A 5 DOMANDE (OGNUNA CON UN PUNTEGGIO MASSIMO PARI A 6 PUNTI) SULL’INTERO PROGRAMMA DEL CORSO. LA PROVA ORALE (DURATA DI CIRCA 30 MINUTI) CONSISTE DI UN COLLOQUIO CON DOMANDE E DISCUSSIONE DELL’ELABORATO SCRITTO. IL VOTO FINALE (MIN 18, MAX 30 CON EVENTUALE LODE) È ATTRIBUITO VALUTANDO GLI ESITI DELLA PROVA SCRITTA E DELLA PROVA ORALE IN CUI SARÀ VALUTATA LA PADRONANZA DEI CONTENUTI DEL CORSO, APPROPRIATEZZA DELLE DEFINIZIONI E DEI RIFERIMENTI TEORICI, CHIAREZZA DELL’ARGOMENTARE, DOMINIO DEL LINGUAGGIO SPECIALISTICO.
L'ESAME NON PREVEDE PROVE INTERCORSO.
Testi
LECTURE NOTES, RISORSE WEB E ARTICOLI SUGGERITI DAL DOCENTE DURANTE IL CORSO SARANNO RESI DISPONIBILI A TUTTI GLI STUDENTI FREQUENTANTI

R FOR DATA SCIENCE (2E), HADLEY WICKHAM,
MINE CETINKAYA-RUNDEL & GARRETT GROLEMUND, O REILLY

MASTERING SPARK WITH R, JAVIER LURASCHI, KEVIN KUO, EDGAR RUIZ, O REILLY

PER RISPONDERE IN MANIERA FLESSIBILE ALLE SPECIFICHE ESIGENZE DI OGNI SINGOLO STUDENTE, IL DOCENTE SI RISERVA LA POSSIBILITÀ DI CONSIGLIARE LETTURE ALTERNATIVE O AGGIUNTIVE DURANTE LE LEZIONI AGLI STUDENTI CHE NE FARANNO RICHIESTA.
Altre Informazioni
IL DOCENTE FORNISCE ULTERIORI SPIEGAZIONI E SUPPORTO METODOLOGICO AGLI STUDENTI DURANTE LE ORE DI RICEVIMENTO.
GIORNI, ORARI E LUOGO DEL RICEVIMENTO, NONCHÉ LE EVENTUALI VARIAZIONI, SONO COMUNICATE SULLA PAGINA WEB DEL DOCENTE.
E’ POSSIBILE CONCORDARE UN APPUNTAMENTO AL DI FUORI DEGLI ORARI PREVISTI PER IL RICEVIMENTO INVIANDO UNA MAIL ALL’INDIRIZZO MAIL DEL DOCENTE.
Orari Lezioni

  BETA VERSION Fonte dati ESSE3 [Ultima Sincronizzazione: 2024-11-18]