STATISTICA APPLICATA

Paolo ADDESSO STATISTICA APPLICATA

0612700117
DIPARTIMENTO DI INGEGNERIA DELL'INFORMAZIONE ED ELETTRICA E MATEMATICA APPLICATA
CORSO DI LAUREA
INGEGNERIA INFORMATICA
2022/2023



ANNO CORSO 3
ANNO ORDINAMENTO 2017
PRIMO SEMESTRE
CFUOREATTIVITÀ
1STATISTICA APPLICATA - MOD.1
432LEZIONE
216ESERCITAZIONE
2STATISTICA APPLICATA - MOD.2
216LEZIONE
18ESERCITAZIONE


Obiettivi
L’INSEGNAMENTO MIRA A FORNIRE:
- I PRINCIPALI STRUMENTI PER VISUALIZZARE I DATI E DESCRIVERLI TRAMITE SEMPLICI MODELLI, IN PARTICOLARE BASATI SULLA REGRESSIONE;
- I METODI PIÙ RILEVANTI PER PIANIFICARE LA RACCOLTA DI DATI, PER SOTTOPORRE A VERIFICA SPERIMENTALE I MODELLI, E ANALIZZARE L’EFFETTO DEI DIVERSI FATTORI DI INFLUENZA;
- I METODI PRINCIPALI PER COSTRUIRE E SOTTOPORRE A VERIFICA SPERIMENTALE MODELLI INTERPRETATIVI DI UN FENOMENO.
- LA CAPACITÀ DI UTILIZZARE I PRINCIPALI STRUMENTI SOFTWARE PER L’ANALISI DEI DATI.

CONOSCENZE E COMPRENSIONE
DESCRIZIONE DI FENOMENI NON DETERMINISTICI BASATA SULLA TEORIA DELLA PROBABILITÀ. ELEMENTI DI BASE DI STATISTICA DESCRITTIVA, PER SINTETIZZARE I DATI NELL’ANALISI UNIVARIATA E MULTIVARIATA, E DELL’INFERENZA STATISTICA. ANALISI DEI FATTORI PIÙ SIGNIFICATIVI NELLA DESCRIZIONE DI UN FENOMENO. MODELLI DI REGRESSIONE LINEARE. TEST PER VALUTARE LA SIGNIFICATIVITÀ STATISTICA.

APPLICAZIONE DELLE CONOSCENZE E DELLA COMPRENSIONE
ANALIZZARE SEMPLICI DATASET DI INTERESSE APPLICATIVO TRAMITE SOFTWARE DEDICATI PER APPLICAZIONI DI STATISTICA.
STIMARE I PARAMETRI DI MODELLI DI REGRESSIONE LINEARE DEI DATI.
PROGETTARE SEMPLICI ESPERIMENTI PER LA RACCOLTA DEI DATI E ANALIZZARE I FATTORI DI INFLUENZA TRAMITE ANALISI DELLA VARIANZA.

Prerequisiti
PREREQUISITI: ADEGUATE CONOSCENZE MATEMATICHE. NOZIONI DI PROBABILITÀ DI BASE.

PROPEDEUTICITÀ: FONDAMENTI DI SEGNALI E TRASMISSIONE.

Contenuti
Unità didattica 1: Introduzione al corso e richiami di probabilità (Ore lezione/esercitazione/laboratorio 6/2/0)
-1 (ore lezione 2): Introduzione al corso
-2 (ore lezione 2): Richiami di teoria della probabilità: calcolo combinatorio, variabili aleatorie e coppie di variabili aleatorie, distribuzioni congiunte e marginali. Covarianza. Coefficiente di correlazione. Trasformazioni di 2 vv.aa. (variabili aleatorie)
-3 (ore lezione 2): Somma di 2 vv.aa. Vettori di variabili aleatorie. Esperimenti composti e variabili su esperimenti composti. Legge dei grandi numeri. Teorema limite centrale. Modelli di vv.aa.: modello binomiale, modello di Poisson, modello esponenziale.
-4 (ore esercitazione 2): Esercizi sul calcolo combinatorio, calcolo di media e varianza, trasformazioni di variabili aleatorie.

Conoscenze e capacità di comprensione
Modelli probabilistici utili alla statistica. Vettori di variabili aleatorie e distribuzioni congiunte e marginali. Conoscenza dei teoremi fondamentali di probabilità per analizzare i dati.

Conoscenze e capacità di comprensione applicate
Calcolo e visualizzazione della distribuzione di variabili aleatorie. Operazioni con dataset contenenti diverse variabili.


Unità didattica 2: Statistica descrittiva e Introduzione a R (Ore lezione/esercitazione/laboratorio 6/0/6)
-5 (ore lezione 2): Introduzione alla Statistica descrittiva: frequenze, frequenze relative, frequenze cumulative, istogrammi.
-6 (ore lezione 2): Media. Mediana. Moda. Indici di dispersione: deviazione standard e varianza campionaria. Box plot.
-7 (ore laboratorio 2): Introduzione a R con comandi di base
-8 (ore laboratorio 2): Interazione con i “dataframe” e plot di base. Visualizzazione in R dei teoremi asintotici e dei concetti di statistica descrittiva
-9 (ore lezione 2): Analisi di correlazione e matrice di correlazione, “scatter plot”.
-10 (ore laboratorio 2): Visualizzazione tramite R dei concetti spiegati: distribuzioni di probabilità, “scatter plot”, “box plot”, “correlation plot”.

Conoscenze e capacità di comprensione
Indicatori e strumenti grafici per descrivere il comportamento di quantità aleatorie misurate. Analizzare la correlazione tra grandezze aleatorie.

Conoscenze e capacità di comprensione applicate
Utilizzo di grafici e tabelle di uso comune in statistica. Utilizzo di semplici dataset tramite software di analisi dati. Visualizzare la correlazione tra variabili.


Unità didattica 3: Statistica Inferenziale e concetti di base del ragionamento induttivo (Ore lezione/esercitazione/laboratorio 6/4/4)
-11 (ore lezione 2): Elementi di teoria della stima: stima puntuale e intervallare. Stima della media di popolazione Normale con varianza nota.
-12 (ore lezione 2): Distribuzioni Chi quadrato e T di Student. Stima intervallare della media e varianza di popolazione Normale con varianza incognita. Intervalli di confidenza unilaterali.
-13 (ore esercitazione 2): Esercitazione su stima puntuale ed intervallare.
-14 (ore laboratorio 2): Intervalli di confidenza, distribuzione Chi quadrato e T di Student in R
-15 (ore lezione 2): Stimatori e loro proprietà (linearità, correttezza, efficienza, consistenza, asintotica Normalità, sufficienza). MSE e cenni al “trade off bias-varianza”. Funzione di verosimiglianza con esempi.
-16 (ore esercitazione 2): Stimatore a massima verosimiglianza (Maximum Likelihood – ML) ed esercizi
-17 (ore laboratorio 2): Esercizi di stima ML in R

Conoscenze e capacità di comprensione
Stima dei parametri di distribuzioni di uso comune. Costruzione degli intervalli di confidenza in casi semplici. Proprietà degli stimatori importanti per l’apprendimento statistico.
Conoscenze e capacità di comprensione applicate
Stima di media e varianza dei dati raccolti in un dataset. Calcolo degli intervalli di confidenza dei parametri a partire da un campione estratto da una popolazione Normale. Stima a massima verosimiglianza in casi di utilità pratica.


Unità didattica 4: Verifica (Test) di Ipotesi (Ore lezione/esercitazione/laboratorio 8/0/4)
-18 (ore lezione 2): Test di ipotesi. Rischio di I e di II specie di un test d’ipotesi. Ipotesi nulla, livello di significatività e potenza di un test. Curva ROC.
-19 (ore lezione 2): Verifica di ipotesi sulla media di una popolazione Normale, a varianza nota e incognita. Test sulle differenze di medie di due Normali con stessa varianza.
-20 (ore laboratorio 2) Test sulla media di una popolazione Normale, a varianza nota e incognita in R. Test sulle differenze di medie di due Normali con stessa varianza in R.
-21 (ore lezione 2): Test sulla varianza di un Normale. Lemma di Neyman-Pearson ed applicazione a un test sulla media di una Normale a varianza nota.
-22 (ore lezione 2) Bontà di adattamento e Q-Q plot. Definizione del “p-value” e suo uso nei test.
-23 (ore laboratorio 2) Bontà di adattamento e Q-Q plot in R, con visualizzazione del “p-value” e del suo uso nei test.

Conoscenze e capacità di comprensione
Verifica delle ipotesi statistiche ed errori. Test di ipotesi in casi notevoli. Prestazioni di un test tra due ipotesi. Verifica dell’ipotesi di Normalità.

Conoscenze e capacità di comprensione applicate
Implementazione al calcolatore di test di ipotesi sui parametri delle variabili in semplici dataset. Bontà di adattamento per via grafica.
Unita didattica 5: Progettazione degli esperimenti e Analisi di Varianza (Ore lezione/esercitazione/laboratorio 6/0/4)
-24 (ore lezione 2) Elementi di progettazione degli esperimenti: piani completamente casualizzati, piani a blocchi casualizzati.
-25 (ore lezione 2) Analisi della varianza (ANOVA): definizione. Distribuzione di Fisher-Snedecor. ANOVA per piani completamente casualizzati.
-26 (ore lezione 2) ANOVA per piani a blocchi casualizzati. Test di Tukey.
-27 (ore laboratorio 2) Introduzione all’ANOVA in R
-28 (ore laboratorio 2) ANOVA e Test di Tukey in R.

Conoscenze e capacità di comprensione
Progettare semplici esperimenti per la raccolta dei dati. Analizzare i fattori di influenza tramite Analisi della Varianza.

Conoscenze e capacità di comprensione applicate
Applicazione dell’Analisi della Varianza a semplici dataset e individuazione dei fattori di influenza delle grandezze misurate


Unita didattica 6: Regressione lineare (Ore lezione/esercitazione/laboratorio 6/0/10)
-29 (ore lezione 2) Analisi di Regressione: introduzione, stimatori ai minimi quadrati, medie e varianze degli stimatori. Intervalli di confidenza sui parametri. Intervalli di confidenza e predizione.
-30 (ore lezione 2) Regressione polinomiale con esempi. Rappresentazione matriciale della regressione multipla.
-31 (ore lezione 2) Regressione multipla. Determinazione del modello più adatto tramite approcci “stepwise”. Cenni alla diagnostica del modello di regressione tramite analisi dei residui.
-32 (ore laboratorio 2) Introduzione all’analisi di Regressione in R.
-33 (ore laboratorio 2) Regressione lineare e Strumenti diagnostici (analisi dei residui) in R.
-34 (ore laboratorio 2) Regressione multipla e regressione polinomiale in R.
-35 (ore laboratorio 2) Determinazione del modello più adatto tramite approcci “stepwise” in R.
-36 (ore laboratorio 2) Implementazione di un modello di regressione in R.

Conoscenze e capacità di comprensione
Modelli di regressione lineare. Test per valutare la significatività statistica dei parametri del modello lineare. Indici per valutare l’adattamento di un modello di regressione ai dati. Approcci stepwise per la selezione del modello lineare.

Conoscenze e capacità di comprensione applicate
Costruzione di modelli di regressione multipla a partire da semplici dataset. Valutazione del legame non lineare tra regressori e variabili dipendenti tramite regressione polinomiale. Valutare l’adattamento di un modello di regressione in semplici dataset. Analisi grafica dei residui della regressione per la diagnostica del modello di regressione.


Totale ore lezione/esercitazione/laboratorio 38/6/28
Metodi Didattici
L’INSEGNAMENTO PREVEDE LEZIONI TEORICHE ED ESERCITAZIONI IN AULA E AL CALCOLATORE TRAMITE R SUGLI ARGOMENTI PROPOSTI.
PER POTER SOSTENERE LA VERIFICA FINALE DEL PROFITTO E CONSEGUIRE I CFU RELATIVI ALL’ATTIVITÀ FORMATIVA, LO STUDENTE DOVRÀ AVERE FREQUENTATO ALMENO IL 70% DELLE ORE PREVISTE DI ATTIVITÀ DIDATTICA ASSISTITA.
Verifica dell'apprendimento
L’ESAME PREVEDE UN PROGETTO DI GRUPPO E UN COLLOQUIO ORALE. IL PROGETTO MIRA A STABILIRE LE CAPACITÀ DI ANALIZZARE UN SEMPLICE DATASET TRAMITE IL SOFTWARE R. IL COLLOQUIO ORALE È FINALIZZATO A VALUTARE NEL SUO COMPLESSO: LA CAPACITÀ DI AFFRONTARE PROBLEMI DI STATISTICA APPLICATA ATTRAVERSO LE METODOLOGIE E GLI STRUMENTI ILLUSTRATI DURANTE IL CORSO; LA CONOSCENZA ED IL LIVELLO DI COMPRENSIONE DEI CONCETTI PRESENTATI AL CORSO. VENGONO ANCHE VALUTATE L’AUTONOMIA DI GIUDIZIO E LA CAPACITÀ ESPOSITIVA.
Testi
D. PICCOLO, STATISTICA PER LE DECISIONI. 3° ED., IL MULINO, 2020.
S. M. IACUS, G. MASAROTTO, LABORATORIO DI STATISTICA CON R, 2° ED., MCGRAW-HILL, 2014

TESTI DI SUPPORTO:
M. GUIDA, AFFIDABILITÀ, ARACNE, 2020.
A. PAPOULIS, S. U. PILLAI, PROBABILITY, RANDOM VARIABLES AND STOCHASTIC PROCESSES, 4TH ED., MCGRAW-HILL, 2001.

MATERIALE DIDATTICO INTEGRATIVO SARÀ DISPONIBILE NELLA SEZIONE DEDICATA DELL'INSEGNAMENTO ALL'INTERNO DELLA PIATTAFORMA E-LEARNING DI ATENEO (HTTP://ELEARNING.UNISA.IT) ACCESSIBILE AGLI STUDENTI DEL CORSO TRAMITE LE CREDENZIALI UNICHE DI ATENEO.

Altre Informazioni
LA LINGUA DELL’INSEGNAMENTO È L’ITALIANO.
  BETA VERSION Fonte dati ESSE3 [Ultima Sincronizzazione: 2024-08-21]