ANALISI STATISTICA PER L'AMBIENTE

Maurizio CAROTENUTO ANALISI STATISTICA PER L'AMBIENTE

0522400027
DIPARTIMENTO DI CHIMICA E BIOLOGIA "ADOLFO ZAMBELLI"
CORSO DI LAUREA MAGISTRALE
SCIENZE AMBIENTALI
2018/2019

OBBLIGATORIO
ANNO CORSO 1
ANNO ORDINAMENTO 2016
SECONDO SEMESTRE
CFUOREATTIVITÀ
324LEZIONE
336ESERCITAZIONE
Obiettivi
L'INSEGNAMENTO SI PROPONE DI APPROFONDIRE LE BASI DEL RAGIONAMENTO STATISTICO, MOSTRARE COME ORGANIZZARE I DATI, PRODURRE GRAFICI DESCRITTIVI ED ESPLORATIVI, AIUTARE A COMPRENDERE L’UTILIZZO DI MODELLI STATISTICI PER L’ANALISI DEI DATI, SPIEGARE COME COMUNICARE E DISCUTERE I RISULTATI DI UN’ANALISI DATI AMBIENTALI. NELL’INSIEME, L'INSEGNAMENTO MIRA AD APPROFONDIRE SIA ASPETTI METODOLOGICI SIA ASPETTI APPLICATIVI E PRATICI MEDIANTE L’UTILIZZO DEL LINGUAGGIO STATISTICO R. PERTANTO I RISULTATI ATTESI SONO: I) CONOSCENZA E COMPRENSIONE DEI CONCETTI CHIAVE DELLA STATISTICA APPLICATA ALL’ANALISI DEI DATI AMBIENTALI E DELL’USO DEL SOFTWARE R NELL’ANALISI DI DATI, II) CAPACITÀ DI APPLICARE CONOSCENZA E COMPRENSIONE ESPRESSA ATTRAVERSO LE ATTIVITÀ DI LABORATORIO IN CUI SI RICHIEDE L’APPLICAZIONE DEI CONCETTI STATISTICI METODOLOGICI ALL’ANALISI DI DATI AMBIENTALI. III) AUTONOMIA DI GIUDIZIO ESPRESSA ATTRAVERSO LA SCELTA DEI METODI STATISTICI DI ANALISI DEI DATI E LA CAPACITÀ CRITICA, IL RIGORE METODOLOGICO, E LA CONOSCENZA DELLE IPOTESI SOTTOSTANTI I METODI UTILIZZATI. IV) ABILITÀ COMUNICATIVE DI PRESENTARE LE COMPETENZE ACQUISITE CON LESSICO PROPRIO ED ATTRAVERSO LA STESURA DI RAPPORTI PROFESSIONALI CHE DESCRIVANO I RISULTATI OTTENUTI DURANTE L’ANALISI DI CASI STUDIO.
Prerequisiti
GLI ARGOMENTI TRATTATI NEL CORSO RICHIEDONO DI AVERE LA CAPACITÀ DI UTILIZZARE GLI STRUMENTI DELL’ALGEBRA LINEARE QUALI MATRICI, VETTORI, E RELATIVE OPERAZIONI, IL CALCOLO DEGLI AUTOVALORI E DEGI AUTOVETTORI. E’ UTILE PER LO STUDENTE CHE VOGLIA SEGUIRE IL CORSO CON PROFITTO SAPER UTILIZZARE IL FORMALISMO MATEMATICO A LIVELLO DI UN CORSO UNIVERSITARIO DI MATEMATICA GENERALE. INOLTRE, IL CORSO RICHIEDE DI AVERE LA CAPACITÀ UTILIZZARE IL COMPUTER PER SVOLGERE LE ESERCITAZIONI PRATICHE. NON È RICHIESTA UNA CONOSCENZA PREGRESSA DEL LINGUAGGIO DI PROGRAMMAZIONE R.
Contenuti
L’INSEGNAMENTO È DIVISO IN ASPETTI TEORICO-METODOLOGICI (32 ORE DI DIDATTICA FRONTALE) ED ASPETTI TECNICO-APPLICATIVI (24 ORE DI DIDATTICA IN LABORATORIO) PER UN TOTALE DI 56 ORE E 6CFU.

GLI ASPETTI TEORICO-METODOLOGICI AFFRONTATI SONO:
- DALLA PROBABILITÀ ALLA STATISTICA: STIMATORI, MISURE DI CORRELAZIONE, MISURE DI ASSOCIAZIONE ED ELEMENTI DI STATISTICA DESCRITTIVA.
- CONCETTI DI INDIPENDENZA/DIPENDENZA STATISTICA, CORRELAZIONE, ASSOCIAZIONE, CAUSALITÀ E RELAZIONI RELATIVE.
- RICHIAMI DI ALGEBRA LINEARE (VETTORI, MATRICI, E LORO PROPRIETÀ MATEMATICHE).
- REGRESSIONE LINEARE SEMPLICE.
- REGRESSIONE LINEARE MULTIPLA.
- METODI STEPWISE NELLE REGRESSIONE E SCELTA DEL MODELLO.
- APPROFONDIMENTI SULLA REGRESSIONE LINEARE: VALUTAZIONE DI UN MODELLO DI REGRESSIONE, CONDIZIONI DI UTILIZZO (GAUSS-MARKOV), TRATTAMENTO DEGLI OUTLIERS.
- MISURE DI DISTANZA, SIMILARITÀ E DISSIMILARITÀ: PROPRIETÀ MATEMATICHE ED ESEMPI.
- TRASFORMAZIONI DI VARIABILI CASUALI.
- INTRODUZIONE AL CLUSTERING.
- CLUSTERING GERARCHICO: IDEE, PRINCIPI ALLA BASE ED ALGORITMI.
- CLUSTERING PARTIZIONALE: IDEE, PRINCIPI ALLA BASE ED ALGORITMI.
- RICHIAMI DI ALGEBRA LINEARE (MATRICI, AUTOVALORI, AUTOVETTORI, E LORO PROPRIETÀ MATEMATICHE).
- APPROFONDIMENTI SUL CLUSTERING: SCELTA DEL NUMERO DI CLUSTER, VALIDAZIONE DEL RISULTATO DI UNA CLUSTERIZZAZIONE.
- ANALISI DELLE COMPONENTI PRINCIPALI (PCA): PROPRIETÀ MATEMATICHE ED INTERPRETAZIONE GEOMENTRICA.
- LA PCA COME TECNICA D RIDUZIONE DELLA DIMENSIONALITÀ E COME TECNICA DI DECORRELAZIONE DELLE VARIABILI.
- APPROFONDIMENTI SULLA PCA: SCELTA DEL NUMERO DELLE COMPONENTI.
- LA PCA IN COMBINAZIONE CON LE ALTRE TECNICHE DELLA STATISTICA QUALI LA REGRESSIONE LINEARE ED IL CLUSTERING.
- MULTIDIMENSIONAL SCALING METRICO.
- MULTIDIMENSIONAL SCALING NON METRICO.
- APPROFONDIMENTI SUL MDS: SCELTA DEL NUMERO DELLE DIMENSIONI.

GLI ASPETTI TECNICO-PRATICI AFFRONTATI SONO:
(ESERCITAZIONI SVOLTE MEDIANTE L’UTILIZZO DEL SOFTWARE STATISTICO R)
- INTRODUZIONE ALL’AMBIENTE DI PROGRAMMAZIONE R.
- R E I PACCHETTI DI R, ISTALLAZIONE E GESTIONE DEL SOFTWARE ATTRAVERSO LINEA DI COMANDO.
- R STUDIO.
- STRUMENTI PER UN’ANALISI RIPRODUCIBILE DEI DATI (RMARKDOWN).
- DATI E STRUTTURE DATI IN R.
- LETTURA E SCRITTURA FILE IN R.
- UTILIZZO DI FUNZIONI GRAFICHE IN R.
- STRUTTURE DI CONTROLLO IN R.
- FUNZIONI E GRAFICI DELLA STATISTICA DESCRITTIVA IN R.
- REGRESSIONE LINEARE SEMPLICE IN R.
- REGRESSIONE LINEARE MULTIPLA IN R.
- FUNZIONI DI DISTANZA, SIMILARITÀ E DISSIMILARITÀ IN R.
- CLUSTERING GERARCHICO IN R.
- CLUSTERING PARTIZIONALE IN R.
- ANALISI DELLE COMPONENTI PRINCIPALI IN R.
- MULTIDIMENSIONAL SCALINING IN R.
- COME CREARE UN REPORT PROFESSIONALE MEDIANTE R E MARKDOWN.
Metodi Didattici
L’INSEGNAMENTO PREVEDE 56 ORE DI DIDATTICA TRA LEZIONI ED ESERCITAZIONI PRATICHE (6 CFU). IN PARTICOLARE SONO PREVISTE 32 ORE DI DIDATTICA FRONTALE SUGLI ASPETTI TEORICO-METODOLOGICI E 24 ORE DI ESERCITAZIONI IN AULA CON IL COMPUTER PER GLI ASPETTI TECNICO-APPLICATIVI.
IL CORSO È ORGANIZZATO NEL SEGUENTE MODO: LEZIONI IN AULA SU TUTTI GLI ARGOMENTI DEL CORSO (16 LEZIONI DI 2 ORE CIASCUNA), ESERCITAZIONI PRATICHE CON IL COMPUTER SU TUTTI GLI ARGOMENTI DEL CORSO (8 LEZIONI DI 3 ORE CIASCUNA). LE ESERCITAZIONI TECNICO-PRATICHE SEGUIRANNO LE LEZIONI TEORICHE SULLO STESSO ARGOMENTO.
PER LE ESERCITAZONI PRATICHE GLI STUDENTI UTILIZZARANNO IL PROPRIO COMPUTER E DOVRANNO ISTALLARE IL SOFTWARE STATISTICO R (CHE È OPEN-SOURCE).
PER LE ESERCITAZIONI PRATICHE GLI STUDENTI POTRANNO LAVORARE SIA IN MODO INDIVIDUALE CHE DIVISI IN COPPIE.
PER CIASCUNA PARTE DEL CORSO VERRÀ FORNITO MATERIALE DIDATTICO SPECIFICO CONSISTENTE IN SLIDES DEL CORSO, ESEMPI DI DATASET E ESERCIZI TIPICI SVOLTI MEDIANTE L’UTILIZZO DEL SOFTWARE STATISTICO R.
IL MATERIALE VERRÀ FORNITO ALL'INIZIO DEL CORSO. GLI STUDENTI SONO INVITATI A LEGGERE IL MATERIALE FORNITO PRIMA DELLA LEZIONE CORRISPONDENTE AL FINE DI RENDERE PIÙ INTERATTIVA E PROFICUA LA LEZIONE STESSA.
Verifica dell'apprendimento
IL RAGGIUNGIMENTO DEGLI OBIETTIVI DELL’INSEGNAMENTO È CERTIFICATA MEDIANTE IL SUPERAMENTO DI UN ESAME CON VALUTAZIONE IN TRENTESIMI E SI INTENDE SUPERATA CON IL VOTO MINIMO DI 18/30.
L’ESAME PREVEDE UNA PROVA SCRITTA ED UNA PROVA ORALE.
IL VOTO FINALE È LA MEDIA DEI PUNTEGGI RIPORTATI NELLE SINGLE PROVE.
LA PROVA SCRITTA CONSISTE NELLA REDAZIONE DI UN ELABORATO (PROGETTO) SVOLTO CON IL SUPPORTO DEL SOFTWARE STATISTICO R CONTENENTE L’ANALISI DI UNO O PIÙ DATASET MEDIANTE I METODI PRESENTI NEL PROGRAMMA DI INSEGNAMENTO (REGRESSIONE, CLUSTERIN, PCA, MDS) E DEVE ADERIRE AI DETTAMI DELLA RICERCA COMPUTAZIONALE RIPRODUCIBILE. IL TEMA DELL’ELABORATO DEVE ESSERE CONCORDATO CON IL DOCENTE. L’ELABORATO PUÒ ESSERE PRODOTTO DALLO STUDENTE IN MODO AUTONOMO O IN COPPIA CON UN’ALTRO STUDENTE.
LA PROVA ORALE CONSISTE IN 3 DOMANDE SUI CONTENUTI TEORICI E METODOLOGICI INDICATE NEL PROGRAMMA DELL’INSEGNAMENTO, NONCHÉ A VERIFICARE LA CAPACITÀ DI ESPOSIZIONE RICORRENDO ALLA TERMINOLOGIA APPROPRIATE E LA CAPACITÀ DI ORGANIZZAZIONE AUTONOMA DELL’ESPOSIZIONE SUGLI STESSI ARGOMENTI A CONTENUTO TEORICO (10 PUNTI A DOMANDA). DURANTE LA PROVA ORALE È PREVISTA ANCHE LA DISCUSSION DEL PROGETTO PRESENTATO CON LA VALIDAZIONE DEL VOTO. LA PROVA ORALE È INDIVIDUALE PER CIASCUN STUDENTE.
Testi
1)WALTER W. PIEGORSCH, A. JOHN BAILER “ANALYZING ENVIRONMENTAL DATA” – WILEY (2005)
2)RICHARD G. BRERETON “CHEMOMETRICS – DATA ANALYSIS FOR THE LABORATORY AND CHEMICAL PLANT” – WILEY (2003)
3)PETER DALGAARD - "INTRODUCTORY STATISTICS WITH R" - SPRINGER
4)APPUNTI DEL CORSO
Altre Informazioni
TUTTE LE LEZIONI ED ESERCITAZIONI SARANNO TENUTE FORNENDO ESEMPI E CASI STUDIO DI INTERESSE.
  BETA VERSION Fonte dati ESSE3 [Ultima Sincronizzazione: 2019-10-21]