Michele LA ROCCA | METODI STATISTICI PER I BIG DATA
Michele LA ROCCA METODI STATISTICI PER I BIG DATA
cod. 0212800016
METODI STATISTICI PER I BIG DATA
0212800016 | |
DIPARTIMENTO DI SCIENZE ECONOMICHE E STATISTICHE | |
CORSO DI LAUREA | |
STATISTICA PER I BIG DATA | |
2020/2021 |
OBBLIGATORIO | |
ANNO CORSO 3 | |
ANNO ORDINAMENTO 2018 | |
PRIMO SEMESTRE |
SSD | CFU | ORE | ATTIVITÀ | |
---|---|---|---|---|
SECS-S/01 | 5 | 30 | LEZIONE |
Obiettivi | |
---|---|
L'INSEGNAMENTO INTENDE FORNIRE I PRINCIPALI STRUMENTI STATISTICI PER L’ANALISI DI DATASETS CARATTERIZZATI DA ALTA DIMENSIONALITÀ, SIA IN TERMINI DI NUMERO DI OSSERVAZIONI CHE IN TERMINI DI NUMERO DI FEATURES. GLI STUDENTI APPRENDERANNO SIA I CONCETTI TEORICI DI BASE SIA LE ABILITÀ COMPUTAZIONALI NECESSARIE AD UNA LORO CORRETTA IMPLEMENTAZIONE, INCLUSE LE TECNICHE CHE RENDONO LE ANALISI SCALABILI ED APPLICABILI A DATASET DISTRIBUITI. PARTICOLARE ENFASI VERRÀ POSTA SUL RAGIONAMENTO STATISTICO ED SULLA CONOSCENZA DEI MODERNI STRUMENTI DI ANALISI INFERENZIALE NECESSARI PER IL SUPPORTO ALLE DECISIONI RELATIVE A FENOMENI E/O A SISTEMI IN CUI GRANDI QUANTITÀ DI DATI, ETEROGENEITÀ E INCERTEZZA DETERMINANO UN LIVELLO DI COMPLESSITÀ NON AFFRONTABILE CON TECNICHE STATISTICHE DI TIPO CLASSICO. CONOSCENZE E CAPACITÀ DI COMPRENSIONE LO STUDENTE SVILUPPERÀ CONOSCENZE: –DELLE PRINCIPALI TECNICHE DI ANALISI E VISUALIZZAZIONE DEI BIG DATI, ANCHE QUANDO DISPONIBILI SU ARCHITETTURE DI TIPO DISTRIBUITO –DELLE TECNICHE DI ANALISI DEI DATI DI TIPO DIVIDE & CONQUER E SPLIT-APPLY-COMBINE –DEI PARADIGMA TIPO MAP/REDUCE COME IMPLEMENTATI IN HADOOP O SPARK PER L’ANALISI DEI DATI –DEI PACKAGES DISPONIBILI NEL LINGUAGGIO R PER LA GESTIONE DI BIG DATA –DELLE PRINCIPALI TECNICHE DI INFERENZA STATISTICA, IN PRESENZA DI BIGDATA E COMUNQUE DATI CON STRUTTURA COMPLESSA –DELLE PRINCIPALI TECNICHE PER LA COSTRUZIONE DI MODELLI PREDITTIVI IN PRESENZA DI DATI AD ALTA DIMENSIONALITÀ CAPACITÀ DI APPLICARE CONOSCENZA E COMPRENSIONE LO STUDENTE SVILUPPERÀ LA CAPACITÀ DI: –ANALIZZARE ED INTERPRETARE INFORMAZIONI DI TIPO COMPLESSO (BIG DATA) E DI PRODURRE INDICATORI, MODELLI STATISTICI E REPORT DI SUPPORTO ALL'ATTIVITÀ DECISIONALE IN AMBITI DIVERSI. –UTILIZZARE IL LINGUAGGIO STATISTICO R PER L’IMPLEMENTAZIONE DELLE TECNICHE OGGETTO DEL CORSO –ANALIZZARE E VALUTARE AUTONOMAMENTE RD IN MODO CRITICO DOCUMENTI E REPORT CHE INCLUDONO INFORMAZIONI ELABORATE UTILIZZANDO BIG DATA, FORMULANDO GIUDIZI CRITICI SULLE MODALITÀ DI RACCOLTA DEI DATI, SULLE MODALITÀ DI ELABORAZIONE DELLE INFORMAZIONI RACCOLTE, SULLE TECNICHE DI INFERENZA E SUI MODELLI PREDITTIVI COSTRUITI NONCHÉ SULLA VALIDITÀ, INTERNA ED ESTERNA, DELLE CONCLUSIONI RAGGIUNTE. –PRESENTARE CON PROPRIETÀ DI LINGUAGGIO, IN MODO EFFICACE E CHIARO, L'INFORMAZIONE DI NATURA QUANTITATIVA, SIA IN FORMA ORALE CHE SCRITTA. GLI STUDENTI SARANNO SOLLECITATI AD APPRENDERE LA STRUTTURA LOGICO-CONCETTUALE NECESSARIA PER L'ANALISI E L'ELABORAZIONE DI BIG DATA, FORNENDO ALTRESÌ LA CAPACITÀ DI RACCORDARE LE COMPETENZE ACQUISITE CON QUELLE APPRESE NEI CORSI DI STUDIO PIÙ AFFINI. |
Prerequisiti | |
---|---|
È NECESSARIA LA CONOSCENZA DI NOZIONI DI CALCOLO MATRICIALE, DELLA PROGRAMMAZIONE DI BASE, DEL LINGUAGGIO STATISTICO R, DI PROBABILITÀ ED INFERENZA STATISTICA, DEI MODELLI DI REGRESSIONE. |
Contenuti | |
---|---|
ANALISI DEI DATI E BIG DATA. BIG DATA: POTENZIALE E PROBLEMI. LE CARATTERISTICHE DEI BIG DATA E LE CONSEGUENZE SUGLI APPROCCI DI ANALISI DEI DATI STATISTICI. IL PROBLEMA DELLA SCALA DI DATI (VOLUME). IL PROBLEMA DELLA QUALITÀ E DELL'INCERTEZZA DEI DATI (VERACITÀ). IL PROBLEMA DI DIVERSE FORME DI DATI (VARIETÀ). IL PROBLEMA DELL'ANALISI DEI DATI DI STREAMING (VELOCITY). APPROCCI DI ANALISI DI TIPO MAPREDUCE, DIVIDE & CONQUER, SPLIT-APPLY-COMBINE. HADOOP E SPARK. INTERFACCE TRA SPARK E R. IL PACKAGE SPARKLYR (8H) TECNICHE DI VISUALIZZAZIONE PER BIG DATA IN R. CASE STUDIES IN R. INFERENZA STATISTICA E BIG DATA.. IL PROBLEMA DEI TEST MULTIPLI E DELL’ALTA DIMENSIONALITÀ NEI TEST. FWE E FDR. PROCEDURE DI CONTROLLO PER FWE E FDR. CASE STUDIES CON R MODELLI DI REGRESSIONE PER BIG DATA. MODELLI DI REGRESSIONE PER BIG DATA CON SPARKLYR. CASE STUDIES CON R. |
Metodi Didattici | |
---|---|
IL CORSO PREVEDE 30 ORE DI DIDATTICA IN AULA. LA FREQUENZA PUR NON ESSENDO OBBLIGATORIA, DATA LA NATURA DEL CORSO, È FORTEMENTE CONSIGLIATA. DURANTE LE LEZIONI SI AFFRONTERANNO TEMATICHE DI TIPO TEORICO AFFIANCATE COSTANTEMENTE DALLA PRESENTAZIONE DI CASI STUDIO MEDIANTE I QUALI SARANNO CHIARITE LE MODALITÀ DI IMPLEMENTAZIONE DELLE TECNICHE, I CONTESTI DI UTILIZZO DEI DIVERSI STRUMENTI E LE INTERPRETAZIONI POSSIBILI DEI RISULTATI OTTENUTI. LE ESERCITAZIONI PERTANTO COSTITUIRANNO PARTE INTEGRANTE DELLE LEZIONI PROGRAMMATE. |
Verifica dell'apprendimento | |
---|---|
LO STUDENTE SARÀ VALUTATO DURANTE LA PROVA FINALE CHE SI TERRÀ IN CORRISPONDENZA DELLE DATE DEGLI ESAMI CALENDARIZZATE DAL DIPARTIMENTO. DURANTE LA PROVA FINALE LO STUDENTE DOVRÀ SOSTENERE UNA PROVA SCRITTA (VALUTATA IN TRENTESIMI) E UNA PROVA ORALE CHE SI TERRÀ, TIPICAMENTE, NEI GIORNI IMMEDIATAMENTE SUCCESSIVI. LA DATA DELLA PROVA SCRITTA È QUELLA PREVISTA DAL CALENDARIO DI DIPARTIMENTO, IL GIORNO DELLA PROVA ORALE È CONCORDATO CON GLI STUDENTI AL TERMINE DELLA PROVA SCRITTA. LA PROVA SCRITTA (DURATA DI CIRCA 2 H) È TESA AD ACCERTARE LA CAPACITÀ DELLO STUDENTE DI UTILIZZARE GLI STRUMENTI SOFTWARE OGGETTO DEL CORSO, LE TECNICHE STATISTICHE SIA DI TIPO ESPLORATIVO CHE INFERENZIALI STUDIATE, DI INTERPRETARE E COMMENTARE I RISULTATI STATISTICI OTTENUTI. DURANTE LA PROVA SCRITTA LO STUDENTE RICEVERÀ UNA TRACCIA D’ESAME E SARÀ CHIAMATO A RISPONDERE A 5 DOMANDE (OGNUNA CON UN PUNTEGGIO MASSIMO PARI A 6 PUNTI) SULL’INTERO PROGRAMMA DEL CORSO. LA PROVA ORALE (DURATA DI CIRCA 30 MINUTI) CONSISTE DI UN COLLOQUIO CON DOMANDE E DISCUSSIONE DELL’ELABORATO SCRITTO. IL VOTO FINALE (MIN 18, MAX 30 CON EVENTUALE LODE) È ATTRIBUITO VALUTANDO GLI ESITI DELLA PROVA SCRITTA E DELLA PROVA ORALE IN CUI SARÀ VALUTATA LA PADRONANZA DEI CONTENUTI DEL CORSO, APPROPRIATEZZA DELLE DEFINIZIONI E DEI RIFERIMENTI TEORICI, CHIAREZZA DELL’ARGOMENTARE, DOMINIO DEL LINGUAGGIO SPECIALISTICO. L'ESAME NON PREVEDE PROVE INTERCORSO. |
Testi | |
---|---|
LECTURE NOTES, RISORSE WEB E ARTICOLI SUGGERITI DAL DOCENTE DURANTE IL CORSO SARANNO RESI DISPONIBILI A TUTTI GLI STUDENTI FREQUENTANTI MASTERING SPARK WITH R, JAVIER LURASCHI, KEVIN KUO, EDGAR RUIZ, O REILLY PER RISPONDERE IN MANIERA FLESSIBILE ALLE SPECIFICHE ESIGENZE DI OGNI SINGOLO STUDENTE, IL DOCENTE SI RISERVA LA POSSIBILITÀ DI CONSIGLIARE LETTURE ALTERNATIVE O AGGIUNTIVE DURANTE LE LEZIONI AGLI STUDENTI CHE NE FARANNO RICHIESTA. |
Altre Informazioni | |
---|---|
IL DOCENTE FORNISCE ULTERIORI SPIEGAZIONI E SUPPORTO METODOLOGICO AGLI STUDENTI DURANTE LE ORE DI RICEVIMENTO. GIORNI, ORARI E LUOGO DEL RICEVIMENTO, NONCHÉ LE EVENTUALI VARIAZIONI, SONO COMUNICATE SULLA PAGINA WEB DEL DOCENTE. E’ POSSIBILE CONCORDARE UN APPUNTAMENTO AL DI FUORI DEGLI ORARI PREVISTI PER IL RICEVIMENTO INVIANDO UNA MAIL ALL’INDIRIZZO MAIL DEL DOCENTE. |
BETA VERSION Fonte dati ESSE3 [Ultima Sincronizzazione: 2022-05-23]