STATISTICA APPLICATA

CLAUDIA ANGELINI STATISTICA APPLICATA

0522100042
DIPARTIMENTO DI CHIMICA E BIOLOGIA "ADOLFO ZAMBELLI"
CORSO DI LAUREA MAGISTRALE
BIOLOGIA
2024/2025

ANNO CORSO 1
ANNO ORDINAMENTO 2022
SECONDO SEMESTRE
CFUOREATTIVITÀ
324LEZIONE
336LABORATORIO
Obiettivi
L’obiettivo del corso consiste nel fornire alle studentesse e agli studenti i) le basi del ragionamento statistico, ii) gli strumenti per organizzare dati sperimentali, produrre grafici descrittivi ed esplorativi, iii) la capacità di utilizzare modelli statistici per l’analisi di dati sperimentali, iv) le competenze per comunicare e discutere i risultati di un’analisi dati biologici, v) le competenze per applicare tali concetti in modo autonomo tramite l’analisi di dati reali da eseguire durante le attività di laboratorio. Nell’insieme il corso mira ad approfondire sia aspetti metodologici che applicativi mediante l’utilizzo del software statistico R.

Conoscenza e capacità di comprensione:
-Conoscenze dei principi teorici della statistica inferenziale.
-Comprensione delle informazioni scientifiche veicolate dalle diverse rappresentazioni grafiche e tabelle sintetiche
-Comprensione delle metodiche per la verifica di ipotesi statistiche.
-Comprensione delle metodiche per l’utilizzo e la valutazione della bontà di un modello regressione lineare.
-Comprensione delle metodiche della Cluster Analysis
-Comprensione delle metodiche dell’Analisi delle Componenti Principali
-Comprensione delle metodiche per la selezione delle variabili in modelli di regressione.
-Comprensione dei fondamenti di programmazione in ambiente statistico R
-Comprensione degli elementi e strumenti per una Ricerca Computazionale Riproducibile.
Capacità di applicare conoscenze e comprensione:
-Capacità di visualizzare e sintetizzare dati biologici mediante tecniche esplorative.
-Capacità di eseguire pre-processamenti, filtraggi, integrazioni di tabelle atti a combinare ed estrarre informazioni da grandi insiemi di dati in forma tabellare.
-Capacità di eseguire ed interpretare i risultatati dei principali test di ipotesi statistica.
-Capacità di analizzare dati biologici mediante modelli di regressione lineare o logistica (semplice e multipla) e mediante le tecniche di regressione penalizzata.
-Capacità di analizzare insieme di dati biologici mediante tecniche di Clustering.
-Capacità di analizzare insieme di dati biologici mediante analisi delle componenti principali
-Capacità di utilizzare il linguaggio statistico R.
-Capacità di utilizzare gli strumenti computazionali per la ricerca riproducibile.
Autonomia di giudizio:
Lo studente o la studentessa sarà in grado di valutare in autonomia:
-La qualità dell’organizzazione e del contenuto informativo in dati sperimentali, con particolare riferimento a dati raccolti in laboratori del corso di laurea
-Il livello di affidabilità atteso per gli algoritmi e i metodi statistici utilizzati
-L’individuazione elementi di potenziale criticità (quali la presenza di outliers o altre anomalie) presenti nei dati
Abilità comunicative:
Lo studente o la studentessa sarà in grado di
-Esporre ed illustrare in modo sintetico e chiaro i risultati di un’analisi statistica mediante grafici e tabelle
-Produrre relazioni scritte, utilizzando una terminologia scientifica appropriata, relative alle analisi dati svolte, in cui dovrà descrivere con sufficiente dettaglio le statistiche procedure adottate e analizzare criticamente i risultati ottenuti, organizzandole in una struttura simile a quella di un articolo scientifico;
-Produrre presentazioni sintetiche di tali risultati, utilizzando strumenti di uso comune quali presentazioni PowerPoint o simili, organizzandole in una struttura simile a quella di una relazione in un convegno scientifico;
-Sostenere un dibattito a partire da tali presentazioni, descrivendo le metodologie utilizzate e rispondendo alle domande pertinenti.
Prerequisiti
Elementi di algebra lineare quali matrici, vettori e relative operazioni come il calcolo degli autovalori ed autovettori di una matrice quali possono essere acquisiti a livello di insegnamento di matematica generale in una laurea scientifica triennale. Capacità di utilizzare il computer per svolgere esercitazioni pratiche.
Contenuti
Lezioni teoriche (24 ore)
-Dalla probabilità alla statistica: Probabilità, stimatori misure di correlazione, misure di associazione ed elementi di statistica descrittiva. (6 ore).
-Test d’Ipotesi Statistica (2 ore)
-Elementi di algebra lineare, misure di distanza, similarità e dissimilarità e trasformazioni di variabili casuali (2 ore).
-Regressione Lineare semplice e multipla (4 ore).
-Clustering gerarchico e/o Clustering partizionale (2 ore).
-Analisi delle Componenti Principali (PCA) (2 ore).
-Modelli di Regressione Lineare Generalizzata: Regressione Logistica (2 ore)
-Elementi di statistica avanzata (Selezione dei modelli e delle variabili attraverso metodi di regolarizzazione, valutazione della bontà di un modello, correzione della molteplicità nei test d’ipotesi) (4 ore)
Attività di laboratorio (36 ore)
-Introduzione all’ambiente di programmazione R (2 ore).
-Dati e strutture dati, lettura e scrittura di file, utilizzo di funzioni grafiche, strutture di controllo in R (6 ore).
-Funzioni e grafici della statistica descrittiva in R (2 ore).
-Test d’ipotesi statistica in R (3 ore)
-Funzioni di distanza, similarità e dissimilarità in R (3 ore).
-Regressione lineare semplice e regressione lineare multipla (6 ore).
-Clustering gerarchico e/o clustering partizionale in R (3 ore).
-Analisi delle Componenti Principali in R (3 ore).
-Modelli di regressione generalizzata (Regressione Logistica) in R (3 ore).
-Selezione delle variabili in modelli di regressione regolarizzata (3 ore)
-Come creare report professionali mediante R e Rmarkdown (2 h).
Metodi Didattici
L’insegnamento prevede 60 ore di didattica tra lezioni teoriche ed esercitazioni in aula con il computer. Durante le esercitazioni si propone agli studenti l’analisi di dati disponibili in letteratura. Il metodo di risoluzione consiste nella formulazione del problema statistico, nella pianificazione delle fasi per l’analisi, e infine nell’analisi e discussione dei risultati. Quest’ultima fase promuove l’abilità a valutare la ragionevolezza risultati ottenuti e a verificare la coerenza con le metodologie utilizzate.
Verifica dell'apprendimento
Il raggiungimento degli obiettivi previsti sarà verificato mediante
1)Prova scritta che consiste nella redazione di un elaborato (i.e., progetto) svolto con il supporto del software statistico R contenente l’analisi di uno o più datasets mediante alcuni metodi presentati nel programma di insegnamento (test di ipotesi statistica, regressione, clustering, PCA, tecniche di regolarizzazione o altro) tale da aderire ai dettami della ricerca computazionale riproducibile.
2)Prova orale che consiste nella discussione dell’elaborato in una presentazione di 5 minuti e nella risposta a 3 domande sui contenuti teorici e metodologici indicati nel programma. La prova orale è atta verificare la capacità di esposizione ricorrendo all’utilizzo della terminologia scientifica appropriata e la capacità di organizzazione autonoma dell’esposizione sugli stessi argomenti
Il voto finale è espresso in trentesimi, di cui massimo 10 punti per la prova scritta (i.e., progetto), massimo 5 punti per la presentazione orale dell’elaborato (progetto) e massimo 5 punti per ciascuna delle 3 domande. La lode sarà assegnata quando il candidato/la candidata dimostri un’eccellente padronanza dei contenuti ed un’ottima proprietà di esposizione scritta ed orale.
Testi
Materiale didattico fornito dal docente, ed almeno uno dei seguenti testi (limitatamente ai capitoli relativi al programma di insegnamento)
-BRIAN EVERITT AND TORSTEN HOTHORN. AN INTRODUCTION TO APPLIED MULTIVARIATE ANALYSIS WITH R, SPRINGER 2011
-ZELTERMAN, D. APPLIED MULTIVARIATE STATISTICS WITH R. SPRINGER (2015)
-HÄRDLE, W.K. AND SIMAR, L., APPLIED MULTIVARIATE STATISTICAL ANALYSIS, FOURTH EDITION. SPRINGER (2015)
-PETER DALGAARD. INTRODUCTORY STATISTICS WITH R, 2ND EDITION. SPRINGER 2008
-ALAIN F. ZUUR, ELENA N. IENO, ERIK H.W.G. MEESTERS. A BEGINNER’S GUIDE TO R. SPRINGER 2009
Altre Informazioni
La frequenza assidua sia alle lezioni che alle esercitazioni è fortemente consigliata
  BETA VERSION Fonte dati ESSE3 [Ultima Sincronizzazione: 2024-11-18]