ANALISI MULTIVARIATA DI DATI AMBIENTALI

CLAUDIA ANGELINI ANALISI MULTIVARIATA DI DATI AMBIENTALI

0522400002
DIPARTIMENTO DI CHIMICA E BIOLOGIA "ADOLFO ZAMBELLI"
CORSO DI LAUREA MAGISTRALE
SCIENZE AMBIENTALI
2016/2017

ANNO CORSO 2
ANNO ORDINAMENTO 2010
SECONDO SEMESTRE
CFUOREATTIVITÀ
324LEZIONE
336LABORATORIO
Obiettivi
L’INSEGNAMENTO SI INSERISCE NEL SETTORE DELLA STATISTICA APPLICATA ED ESAMINA ELEMENTI DI BASE RIGUARDANTI LA STATISTICA UNIVARIATA E MULTIVARIATA. ESSO SI PROPONE DI APPROFONDIRE LE BASI DEL RAGIONAMENTO STATISTICO, DI MOSTRARE COME ORGANIZZARE I DATI, PRODURRE GRAFICI DESCRITTIVI ED ESPLORATIVI, DI AIUTARE A COMPRENDERE L’UTILIZZO DI MODELLI STATISTICI PER L’ANALISI DEI DATI, DI SPIEGARE COME COMUNICARE E DISCUTERE I RISULTATI DI UN’ANALISI DATI AMBIENTALI. NELL’INSIEME, IL CORSO MIRA AD APPROFONDIRE SIA ASPETTI METODOLOGICI SIA ASPETTI APPLICATIVI E PRATICI MEDIANTE L’UTILIZZO DEL LINGUAGGIO STATISTICO R.
LE PRINCIPALI CONOSCENZE ACQUISITE SARANNO
•ELEMENTI DI BASE DELLA STATISTICA DESCRITTIVA ED ESPLORATIVA
•ELEMENTI DI STATISTICA INFERENZIALE
•CARATTERISTICHE E PROPRIETÀ DELLA REGRESSIONE LINEARE
•CARATTERISTICHE E PROPRIETÀ DELLA ANALISI DEI RAGGRUPPAMENTI (CLUSTER ANALYSIS)
•CARATTERISTICHE E PROPRIETÀ DELL’ANALISI ALLE COMPONENTI PRINCIPALI
•FONDAMENTI PER LA RAPPRESENTAZIONE DI DATI MULTIDIMENSIONALI
•FONDAMENTI DI PROGRAMMAZIONE IN AMBIENTE STATISTICO R
•ELEMENTI DI RICERCA COMPUTAZIONALE RIPRODUCIBILE

LE PRINCIPALI ABILITÀ ACQUISITE SARANNO
•ANALIZZARE INSIEMI DI DATI AMBIENTALI MEDIANTE MODELLI DI REGRESSIONE LINEARE (SEMPLICE E MULTIPLA)
•ANALIZZARE INSIEMI DI DATI AMBIENTALI MEDIANTE ANALISI DEI RAGGRUPPAMENTI
•ANALIZZARE INSIEMI DI DATI AMBIENTALI MEDIANTE ANALISI DELLE COMPONENT PRINCIPALI
•VISUALIZZARE INSIEMI DI DATI AMBIENTALI MULTIDIMENSIONALI MEDIANTE LO SCALING MULTIDIMENSIONALE
•UTILIZZARE IL LINGUAGGIO STATISTICO R
•UTILIZZARE GLI STRUMENTI COMPUTAZIONALI PER LA RICERCA RIPRODUCIBILE
Prerequisiti
GLI ARGOMENTI TRATTATI NEL CORSO RICHIEDONO DI AVERE LA CAPACITÀ DI UTILIZZARE GLI STRUMENTI DELL’ALGEBRA LINEARE QUALI MATRICI, VETTORI, E RELATIVE OPERAZIONI, IL CALCOLO DEGLI AUTOVALORI E DEGI AUTOVETTORI. E’ UTILE PER LO STUDENTE CHE VOGLIA SEGUIRE IL CORSO CON PROFITTO SAPER UTILIZZARE IL FORMALISMO MATEMATICO A LIVELLO DI UN CORSO UNIVERSITARIO DI MATEMATICA GENERALE.
INOLTRE, IL CORSO RICHIEDE DI AVERE LA CAPACITÀ UTILIZZARE IL COMPUTER PER SVOLGERE LE ESERCITAZIONI PRATICHE. NON È RICHIESTA UNA CONOSCENZA PREGRESSA DEL LINGUAGGIO DI PROGRAMMAZIONE R.
Contenuti
IL CORSO DI INSEGNAMENTO È DIVISO IN ASPETTI TEORICO-METODOLOGICI (24 ORE DI DIDATTICA FRONTALE) ED ASPETTI TECNICO-APPLICATIVI (36 ORE DI DIDATTICA IN LABORATORIO) PER UN TOTALE DI 60 ORE E 6CFU.
GLI ASPETTI TEORICO-METODOLOGICI AFFRONTATI SONO
- DALLA PROBABILITÀ ALLA STATISTICA: STIMATORI, MISURE DI CORRELAZIONE, MISURE DI ASSOCIAZIONE ED ELEMENTI DI STATISTICA DESCRITTIVA.
- CONCETTI DI INDIPENDENZA/DIPENDENZA STATISTICA, CORRELAZIONE, ASSOCIAZIONE, CAUSALITÀ E RELAZIONI RELATIVE.
- RICHIAMI DI ALGEBRA LINEARE (VETTORI, MATRICI, E LORO PROPRIETÀ MATEMATICHE)
- REGRESSIONE LINEARE SEMPLICE.
- REGRESSIONE LINEARE MULTIPLA.
- METODI STEPWISE NELLE REGRESSIONE E SCELTA DEL MODELLO.
- APPROFONDIMENTI SULLA REGRESSIONE LINEARE: VALUTAZIONE DI UN MODELLO DI REGRESSIONE, CONDIZIONI DI UTILIZZO (GAUSS-MARKOV), TRATTAMENTO DEGLI OUTLIERS.
- MISURE DI DISTANZA, SIMILARITÀ E DISSIMILARITÀ: PROPRIETÀ MATEMATICHE ED ESEMPI.
- TRASFORMAZIONI DI VARIABILI CASUALI.
- INTRODUZIONE AL CLUSTERING,
- CLUSTERING GERARCHICO: IDEE, PRINCIPI ALLA BASE ED ALGORITMI
- CLUSTERING PARTIZIONALE: IDEE, PRINCIPI ALLA BASE ED ALGORITMI
- RICHIAMI DI ALGEBRA LINEARE (MATRICI, AUTOVALORI, AUTOVETTORI, E LORO PROPRIETÀ MATEMATICHE)
- APPROFONDIMENTI SUL CLUSTERING: SCELTA DEL NUMERO DI CLUSTER, VALIDAZIONE DEL RISULTATO DI UNA CLUSTERIZZAZIONE
- ANALISI DELLE COMPONENTI PRINCIPALI (PCA): PROPRIETÀ MATEMATICHE ED INTERPRETAZIONE GEOMENTRICA
- LA PCA COME TECNICA D RIDUZIONE DELLA DIMENSIONALITÀ E COME TECNICA DI DECORRELAZIONE DELLE VARIABILI
- APPROFONDIMENTI SULLA PCA: SCELTA DEL NUMERO DELLE COMPONENTI
- LA PCA IN COMBINAZIONE CON LE ALTRE TECNICHE DELLA STATISTICA QUALI LA REGRESSIONE LINEARE ED IL CLUSTERING
- MULTIDIMENSIONAL SCALING METRICO
- MULTIDIMENSIONAL SCALING NON METRICO
- APPROFONDIMENTI SUL MDS: SCELTA DEL NUMERO DELLE DIMENSIONI

GLI ASPETTI TECNICO-PRATICI AFFRONTATI SONO
: (ESERCITAZIONI SVOLTE MEDIANTE L’UTILIZZO DEL SOFTWARE STATISTICO R)
- INTRODUZIONE ALL’AMBIENTE DI PROGRAMMAZIONE R.
- R E I PACCHETTI DI R, ISTALLAZIONE E GESTIONE DEL SOFTWARE ATTRAVERSO LINEA DI COMANDO
- R STUDIO
- STRUMENTI PER UN’ANALISI RIPRODUCIBILE DEI DATI (RMARKDOWN)
- DATI E STRUTTURE DATI IN R
- LETTURA E SCRITTURA FILE IN R
- UTILIZZO DI FUNZIONI GRAFICHE IN R
- STRUTTURE DI CONTROLLO IN R
- FUNZIONI E GRAFICI DELLA STATISTICA DESCRITTIVA IN R
- REGRESSIONE LINEARE SEMPLICE IN R
- REGRESSIONE LINEARE MULTIPLA IN R
- FUNZIONI DI DISTANZA, SIMILARITÀ E DISSIMILARITÀ IN R
- CLUSTERING GERARCHICO IN R
- CLUSTERING PARTIZIONALE IN R
- ANALISI DELLE COMPONENTI PRINCIPALI IN R
- MULTIDIMENSIONAL SCALINING IN R
- COME CREARE UN REPORT PROFESSIONALE MEDIANTE R E MARKDOWN
Metodi Didattici
L’INSEGNAMENTO PREVEDE 60 ORE DI DIDATTICA TRA LEZIONI ED ESERCITAZIONI PRATICHE (6CFU). IN PARTICOLARE SONO PREVISTE 24 ORE DI DIDATTICA FRONTALE SUGLI ASPETTI TEORICO-METODOLOGICI E 36 ORE DI ESERCITAZIONI IN AULA CON IL COMPUTER PER GLI ASPETTI TECNICO-APPLICATIVI.
IL CORSO È ORGANIZZATO NEL SEGUENTE MODO: LEZIONI IN AULA SU TUTTI GLI ARGOMENTI DEL CORSO (12 LEZIONI DI 2 ORE CIASCUNA), ESERCITAZIONI PRATICHE CON IL COMPUTER SU TUTTI GLI ARGOMENTI DEL CORSO (12 LEZIONI DI 3 ORE CIASCUNA). LE ESERCITAZIONI TECNICO-PRATICHE SEGUIRANNO LE LEZIONI TEORICHE SULLO STESSO ARGOMENTO.

PER LE ESERCITAZONI PRATICHE GLI STUDENTI UTILIZZARANNO IL PROPRIO COMPUTER E DOVRANNO ISTALLARE IL SOFTWARE STATISTICO R (CHE È OPEN-SOURCE).
PER LE ESERCITAZIONI PRATICHE GLI STUDENTI POTRANNO LAVORARE SIA IN MODO INDIVIDUALE CHE DIVISI IN COPPIE.

PER CIASCUNA PARTE DEL CORSO VERRÀ FORNITO MATERIALE DIDATTICO SPECIFICO CONSISTENTE IN SLIDES DEL CORSO, ESEMPI DI DATASET E ESERCIZI TIPICI SVOLTI MEDIANTE L’UTILIZZO DEL SOFTWARE STATISTICO R.

IL MATERIALE VERRÀ FORNITO ALL'INIZIO DEL CORSO. GLI STUDENTI SONO INVITATI A LEGGERE IL MATERIALE FORNITO PRIMA DELLA LEZIONE CORRISPONDENTE AL FINE DI RENDERE PIÙ INTERATTIVA E PROFICUA LA LEZIONE STESSA.
Verifica dell'apprendimento
IL RAGGIUNGIMENTO DEGLI OBIETTIVI DELL’INSEGNAMENTO È CERTIFICATA MEDIANTE IL SUPERAMENTO DI UN ESAME CON VALUTAZIONE IN TRENTESIMI E SI INTENDE SUPERATA CON IL VOTO MINIMO DO 18/30.
L’ESAME PREVEDE UNA PROVA SCRITTA ED UNA PROVA ORALE.
IL VOTO FINALE È LA MEDIA DEI PUNTEGGI RIPORTATI NELLE SINGLE PROVE.

LA PROVA SCRITTA CONSISTE NELLA REDAZIONE DI UN ELABORATO (PROGETTO) SVOLTO CON IL SUPPORTO DEL SOFTWARE STATISTICO R CONTENENTE L’ANALISI DI UNO O PIÙ DATASET MEDIANTE I METODI PRESENTI NEL PROGRAMMA DI INSEGNAMENTO (REGRESSIONE, CLUSTERIN, PCA, MDS) E DEVE ADERIRE AI DETTAMI DELLA RICERCA COMPUTAZIONALE RIPRODUCIBILE. IL TEMA DELL’ELABORATO DEVE ESSERE CONCORDATO CON IL DOCENTE. L’ELABORATO PUÒ ESSERE PRODOTTO DALLO STUDENTE IN MKODO AUTONOMO O IN COPPIA CON UN’ALTRO STUDENTE.

LA PROVA ORALE CONSISTE IN 3 DOMANDE SUI CONTENUTI TEORICI E METODOLOGICI INDICATE NEL PROGRAMMA DELL’INSEGNAMENTO, NONCHÉ A VERIFICARE LA CAPACITÀ DI ESPOSIZIONE RICORRENDO ALLA TERMINOLOGIA APPROPRIATE E LA CAPACITÀ DI ORGANIZZAZIONE AUTONOMA DELL’ESPOSIZIONE SUGLI STESSI ARGOMENTI A CONTENUTO TEORICO (10 PUNTI A DOMANDA). DURANTE LA PROVA ORALE È PREVISTA ANCHE LA DISCUSSION DEL PROGETTO PRESENTATO CON LA VALIDAZIONE DEL VOTO. LA PROVA ORALE È INDIVIDUALE PER CIASCUN STUDENTE.
Testi
ANALISI STATISTICA MULTIVARIATA:

UNO DEI SEGUENTI TESTI, LIMITATAMENTE AI CAPITOLI RELATIVE AL PROGRAMMA DI INSEGNAMENTO
- BRIAN EVERITT AND TORSTEN HOTHORN. AN INTRODUCTION TO APPLIED MULTIVARIATE ANALYSIS WITH R, SPRINGER 2011
- ZELTERMAN, D. APPLIED MULTIVARIATE STATISTICS WITH R. SPRINGER (2015)
- HÄRDLE, W.K. AND SIMAR, L., APPLIED MULTIVARIATE STATISTICAL ANALYSIS, FOURTH EDITION. SPRINGER (2015)

INTRODUZIONE ALLA STATISTICA ED AL LINGUAGGIO R
- PETER DALGAARD. INTRODUCTORY STATISTICS WITH R, 2ND EDITION. SPRINGER 2008
- ALAIN F. ZUUR, ELENA N. IENO, ERIK H.W.G. MEESTERS. A BEGINNER’S GUIDE TO R. SPRINGER 2009
Altre Informazioni
TUTTE LE LEZIONI ED ESERCITAZIONI SARANNO TENUTE FORNENDO ESEMPI E CASI STUDIO DI INTERESSE.
  BETA VERSION Fonte dati ESSE3 [Ultima Sincronizzazione: 2019-03-11]