STATISTICA E ANALISI DEI DATI

STEFANO CIRILLO STATISTICA E ANALISI DEI DATI

0522500094
DIPARTIMENTO DI INFORMATICA
CORSO DI LAUREA MAGISTRALE
INFORMATICA
2024/2025



OBBLIGATORIO
ANNO CORSO 1
ANNO ORDINAMENTO 2016
PRIMO SEMESTRE
CFUOREATTIVITÀ
972LEZIONE
Obiettivi
IL CORSO HA L'OBIETTIVO DI FORNIRE AGLI STUDENTI LE CONOSCENZE TEORICHE E LE COMPETENZE PRATICHE RELATIVE ALL'ANALISI STATISTICA DEI DATI, CON PARTICOLARE ENFASI SULL'UTILIZZO DEL LINGUAGGIO DI PROGRAMMAZIONE R.
NELLO SPECIFICO, IL CORSO MIRA A:
•SVILUPPARE NEGLI STUDENTI LA PADRONANZA DI METODI E TECNICHE PER IL TRATTAMENTO E L'ANALISI DI DATI COMPLESSI UTILIZZANDO IL LINGUAGGIO R, UNO STRUMENTO AMPIAMENTE UTILIZZATO NEL CAMPO DELL'INFORMATICA E DELLA SCIENZA DEI DATI.
•FORNIRE AGLI STUDENTI UNA SOLIDA BASE DI CONOSCENZE IN STATISTICA DESCRITTIVA E INFERENZIALE, CON PARTICOLARE ATTENZIONE ALLE METODOLOGIE DI ANALISI DEI DATI PIÙ DIFFUSE E ALLE RELATIVE APPLICAZIONI IN CONTESTI INFORMATICI.
•SVILUPPARE NEGLI STUDENTI LA CAPACITÀ DI APPLICARE LE CONOSCENZE ACQUISITE A PROBLEMI CONCRETI LEGATI ALLA GESTIONE, ALLA MANIPOLAZIONE E ALL'ANALISI DI DATI STATISTICI.
•GUIDARE GLI STUDENTI NELLO SVILUPPO DI APPLICAZIONI PER LA GESTIONE, L'ANALISI E LA VISUALIZZAZIONE DI DATI STATISTICI, SFRUTTANDO LE POTENZIALITÀ DEL LINGUAGGIO R.
CONOSCENZA E CAPACITÀ DI COMPRENSIONE
•SVILUPPO DI METODI E TECNICHE PER IL TRATTAMENTO E L'ANALISI DI DATI UTILIZZANDO UNO DEI PIÙ POTENTI E FLESSIBILI SOFTWARE STATISTICI, OSSIA IL LINGUAGGIO DI PROGRAMMAZIONE R
•STATISTICA DESCRITTIVA E INFERENZIALE CON R
CAPACITÀ DI APPLICARE CONOSCENZA E COMPRENSIONE
•PROBLEMI APPLICATIVI LEGATI AL TRATTAMENTO E ALL'ANALISI DEI DATI
•SVILUPPO DI APPLICAZIONI INFORMATICHE PER LA GESTIONE, LA MANIPOLAZIONE E L’ANALISI DI DATI STATISTICI
LO STUDENTE SARÀ IN GRADO DI:
•COMPRENDERE I PRINCIPI FONDAMENTALI DELLA STATISTICA DESCRITTIVA E INFERENZIALE.
•FORMULARE IPOTESI STATISTICHE E TESTARLE UTILIZZANDO METODI APPROPRIATI.
•UTILIZZARE METODI E TECNICHE DI STATISTICA INFERENZIALE PER L'ANALISI DI DATI COMPLESSI.
•APPLICARE LE CONOSCENZE E LE COMPETENZE ACQUISITE IN CONTESTI REALI
•UTILIZZARE IL LINGUAGGIO R COME STRUMENTO DI ANALISI STATISTICHE SU DATI COMPLESSI.
•IMPLEMENTARE MODELLI STATISTICI LINEARI E NON LINEARI UTILIZZANDO IL LINGUAGGIO R.
•RISOLVERE PROBLEMI APPLICATIVI LEGATI AL TRATTAMENTO E ALL'ANALISI DI DATI IN CONTESTI INFORMATICI.
LO STUDENTE SARÀ IN GRADO DI:
•VALUTARE SORGENTI DATI IDONEE PER AFFRONTARE PROBLEMI REALI CON METODOLOGIE DI STATISTICA INFERENZIALE.
•SVILUPPARE LA CAPACITÀ DI ANALIZZARE IN MODO CRITICO PROBLEMI COMPLESSI, INDIVIDUANDO LE VARIABILI CHIAVE E FORMULARE IPOTESI DI SOLUZIONE
•VALUTARE LA BONTÀ DI METODOLOGIE STATISTICHE NONCHÉ MODELLI PREDITTIVI E DI REGRESSIONE QUANDO UTILIZZATI SU SORGENTI DATI COMPLESSE.
•VALUTARE CRITICAMENTE LA VALIDITÀ E L'AFFIDABILITÀ DI RICERCHE BASATE SU ANALISI STATISTICHE
L'ACQUISIZIONE DI QUESTE CAPACITÀ TRASVERSALI, OLTRE ALLE COMPETENZE SPECIFICHE NELL'AMBITO DELL'ANALISI STATISTICA DEI DATI, RAPPRESENTA UN VALORE AGGIUNTO SIGNIFICATIVO PER GLI STUDENTI, PERMETTENDOGLI DI INSERIRSI CON SUCCESSO NEL MONDO DEL LAVORO E DI AFFRONTARE LE SFIDE POSTE DALLA SOCIETÀ ODIERNA, CARATTERIZZATA DA UNA CRESCENTE COMPLESSITÀ E DA UN RAPIDO CAMBIAMENTO.
OLTRE ALLE CAPACITÀ TECNICHE E TRASVERSALI GIÀ ELENCATE, IL CORSO DI STATISTICA ED ANALISI DEI DATI MIRA A SVILUPPARE NEGLI STUDENTI DIVERSE ABILITÀ COMUNICATIVE. QUESTE ABILITÀ SARANNO FONDAMENTALI PER PERMETTERE AGLI STUDENTI DI:
•COMUNICARE IN MODO CHIARO, CONCISO ED EFFICACE DI STATISTICHE DEI DATI, ANCHE CON INTERLOCUTORI NON ESPERTI DI STATISTICA
•RAPPRESENTARE EFFICACEMENTE I RISULTATI DELLE ANALISI STATISTICHE ATTRAVERSO PARADIGMI DI VISUALIZZAZIONE E GRAFICI DI DATI STATISTICI.
•REDIGERE REPORT DI ANALISI STATISTICHE CHIARI, COMPLETI E BEN STRUTTURATI
•CONDURRE UN DIBATTITO COSTRUTTIVO CON ALTRI INTERLOCUTORI BASATO SU SOLIDE EVIDENZE STATISTICHE.
•CONSULTARE E UTILIZZARE EFFICACEMENTE LA LETTERATURA SCIENTIFICA E TECNICA.
•PROCEDERE ALL’AGGIORNAMENTO CONTINUO DELLE PROPRIE CONOSCENZE, UTILIZZANDO LA LETTERATURA TECNICA E SCIENTIFICA
•APPROCCIARSI A PROBLEMI DI CLASSIFICAZIONE E PREDIZIONE CON UNA CONOSCENZA STATISTICA PRELIMINARE DEI DATI
•FORMULARE DOMANDE DI ANALISI E DI RICERCA BEN DEFINITE CHE SONO BASATE SU SOLIDE PREMESSE TEORICHE
Prerequisiti
CONOSCENZE DI BASE DI CALCOLO DELLE PROBABILITÀ E STATISTICA
Contenuti
IL CORSO SI CONCENTRERÀ SUI SEGUENTI ARGOMENTI:
•L’AMBIENTE INTEGRATO R: INTRODUZIONE E NOTE STORICHE. (LEZIONI FRONTALI, 2 ORE)
•LINGUAGGIO R: VETTORI. ARRAY E MATRICI. LISTE. DATAFRAME. FATTORI. DEFINIZIONE DI NUOVE FUNZIONI. (LEZIONI FRONTALI, 4 ORE)
•TABELLE E GRAFICI: DISTRIBUZIONI DI FREQUENZA SEMPLICI. DISTRIBUZIONI DI FREQUENZA DOPPIE. DISTRIBUZIONI DI FREQUENZA CONDIZIONATE. LE PRINCIPALI RAPPRESENTAZIONI GRAFICHE. FUNZIONI GRAFICHE AD ALTO LIVELLO, A BASSO LIVELLO E PER GRAFICI INTERATTIVI. GRAFICI A BARRE, A BASTONCINI E DIAGRAMMI A TORTA. ISTOGRAMMI. BOXPLOT. DIAGRAMMA DI PARETO. RAPPRESENTAZIONI GRAFICHE DI TABELLE. RAPPRESENTAZIONI GRAFICHE PER CONFRONTARE VARIABILI. SCATTERPLOT. GRAFICI DI FUNZIONI. (LEZIONI FRONTALI, 6 ORE)
•STATISTICA DESCRITTIVA UNIVARIATA CON R: INTRODUZIONE ALLA STATISTICA DESCRITTIVA. FUNZIONE DI DISTRIBUZIONE EMPIRICA DISCRETA E CONTINUA. INDICI DI POSIZIONE E DI DISPERSIONE. MEDIA CAMPIONARIA, MEDIANA CAMPIONARIA E MODA CAMPIONARIA. PERCENTILI E QUARTILI. VARIANZA CAMPIONARIA, DEVIAZIONE STANDARD CAMPIONARIA E COEFFICIENTE DI VARIAZIONE. FORMA DI UNA DISTRIBUZIONE DI FREQUENZA. SKEWNESS CAMPIONARIA E CURTOSI CAMPIONARIA. MEDIA PONDERATA. (LEZIONI FRONTALI, 8 ORE)
•STATISTICA DESCRITTIVA BIVARIATA CON R: CORRELAZIONE, COVARIANZA E COEFFICIENTE DI CORRELAZIONE CAMPIONARI. MODELLI DI REGRESSIONE LINEARI E NON LINEARI. RESIDUI E COEFFICIENTE DI DETERMINAZIONE. (LEZIONI FRONTALI, 8 ORE)
•TECNICHE DI ANALISI STATISTICA MULTIVARIATA CON R. ANALISI DEI CLUSTER. INTRODUZIONE ALL’ANALISI DEI CLUSTER. NOZIONI DI BASE E DEFINIZIONI. FUNZIONI DI DISTANZA E MISURE DI SIMILARITÀ. METODI DI OTTIMIZZAZIONE. METODI GERARCHICI. ANALISI DEL DENDROGRAMMA. METODI NON GERARCHICI. MISURE DI SINTESI ASSOCIATE AI CLUSTER. (LEZIONI FRONTALI, 8 ORE)
•INTRODUZIONE ALLA STATISTICA INFERENZIALE (LEZIONI FRONTALI, 2 ORE)
•VARIABILI ALEATORIE DISCRETE IN R: DISTRIBUZIONI DI PROBABILITÀ DISCRETE E LORO SIMULAZIONE (BERNOULLI, BINOMIALE, GEOMETRICA E GEOMETRICA MODIFICATA, BINOMIALE NEGATIVA, BINOMIALE NEGATIVA MODIFICATA, IPERGEOMETRICA, DI POISSON). ALCUNI IMPORTANTI RISULTATI CONNESSI ALLE VARIABILI ALEATORIE DISCRETE, ANALIZZATI TRAMITE LA SIMULAZIONE IN R. (LEZIONI FRONTALI, 5 ORE)
•VARIABILI ALEATORIE CONTINUE IN R: DISTRIBUZIONI DI PROBABILITÀ CONTINUE E LORO SIMULAZIONE (UNIFORME, ESPONENZIALE, NORMALE, CHI-QUADRATO, DI STUDENT). ALCUNI IMPORTANTI RISULTATI CONNESSI ALLE VARIABILI ALEATORIE CONTINUE ANALIZZATI TRAMITE LA SIMULAZIONE IN R. (LEZIONI FRONTALI, 5 ORE)
•STATISTICA INFERENZIALE CON R: STIMA PUNTUALE. PROPRIETÀ DEGLI STIMATORI. METODI PER LA RICERCA DI STIMATORI. METODI DEI MOMENTI E DELLA MASSIMA VEROSIMIGLIANZA. (LEZIONI FRONTALI, 4 ORE)
•STIMA PER INTERVALLO CON R: INTERVALLI DI CONFIDENZA. INTERVALLI DI CONFIDENZA PER LA MEDIA E VARIANZA DI UNA POPOLAZIONE NORMALE. (LEZIONI FRONTALI, 6 ORE)
•INTERVALLI DI CONFIDENZA PER GRANDI CAMPIONI. INTERVALLI DI CONFIDENZA PER I PARAMETRI DI UNA POPOLAZIONE DI BERNOULLI, DI POISSON ED ESPONENZIALE. DIFFERENZE TRA LE MEDIE DI POPOLAZIONI NORMALI E DI POPOLAZIONI DI BERNOULLI. (LEZIONI FRONTALI, 6 ORE)
•VERIFICA DELLE IPOTESI CON R: TEST SULLE MEDIE. TEST SULLE DIFFERENZE TRA MEDIE. TEST SULLE VARIANZE. TEST SULLE PROPORZIONI. (LEZIONI FRONTALI, 4 ORE)
•TEST CHI-QUADRATO DI PEARSON. TEST DI IPOTESI IN MODELLI DI REGRESSIONE LINEARI E NON LINEARI. (LEZIONI FRONTALI, 4 ORE)
Metodi Didattici
IL METODO DIDATTICO PREVEDE LEZIONI TEORICHE INTEGRATE DA ESERCITAZIONI E PROBLEMI CONNESSI ALLE METODOLOGIE PER L’ANALISI DEI DATI UNIVARIATI E MULTIVARIATI (CFU 9, DURATA (H): 72). LA FREQUENZA DELLE LEZIONI È FORTEMENTE CONSIGLIATA. GLI STUDENTI SONO GUIDATI AD APPRENDERE IN MANIERA CRITICA E RESPONSABILE TUTTO CIÒ CHE IL DOCENTE PRESENTA DURANTE LE LEZIONI FRONTALI. GLI STUDENTI SONO COSÌ STIMOLATI A COMUNICARE ALL’INTERA CLASSE LE IDEE DI SVILUPPO E DI IMPLEMENTAZIONE DI PROBLEMI STATISTICO-COMPUTAZIONALI; SONO INOLTRE INCORAGGIATI AD ACQUISIRE ABILITÀ E COMPETENZA NELLA GESTIONE DELLA COMPLESSITÀ DI NUOVI PROBLEMI CONNESSI ALL’ANALISI DEI DATI.
Verifica dell'apprendimento
IL CORSO PREVEDE UNA VALUTAZIONE BASATA SU UN ESAME IN TRENTESIMI, CHE COMPRENDE LO SVILUPPO DI UN PROGETTO E UNA PROVA ORALE. IL PROGETTO PUÒ ESSERE INDIVIDUALE O DI GRUPPO (MASSIMO 2 PERSONE) E MIRA A VERIFICARE L'APPLICAZIONE DELLE CONOSCENZE ACQUISITE. DOPO LA CONSEGNA DEL PROGETTO, GLI STUDENTI AFFRONTANO UNA PROVA ORALE INDIVIDUALE, CHE INCLUDE DOMANDE SULLA TEORIA TRATTATA E SERVE A VALUTARE LA COMPRENSIONE E L'ESPOSIZIONE DEI CONCETTI. IL VOTO DIPENDE DALLE CONOSCENZE E DALLA CAPACITÀ DI APPLICARE METODOLOGIE ALLA RISOLUZIONE DI PROBLEMI CONCRETI.
Testi
•MICHAEL J. CRAWLEY (2017) THE R BOOK, WILEY
•JANE M. HORGAN (2019) PROBABILITY WITH R. AN INTRODUCTION WITH COMPUTER SCIENCE APPLICATIONS. WILEY
•ALVIN C. RENCHER (2012) METHODS OF MULTIVARIATE ANALYSIS. WILEY SERIES IN PROBABILITY AND STATISTICS
•APPUNTI DELLE LEZIONI DEL DOCENTE
Altre Informazioni
LA FREQUENZA DEL CORSO È FORTEMENTE CONSIGLIATA. PER AIUTARE GLI STUDENTI NELLO STUDIO INDIVIDUALE, IL DOCENTE FORNIRÀ APPUNTI DELLE LEZIONI, COMPRENSIVI DEI VARI ARGOMENTI TRATTATI E DEI PROBLEMI AFFRONTATI. GLI STUDENTI CHE HANNO FREQUENTATO ASSIDUAMENTE SONO AVVANTAGGIATI NELLA DISCUSSIONE ORALE POICHÉ SONO STATI GUIDATI DURANTE LE LEZIONI AD APPRENDERE, ELABORARE E COLLEGARE IN MANIERA SISTEMATICA E CRITICA I VARI ARGOMENTI OLTRE CHE A GESTIRE LA COMPLESSITÀ DI NUOVI PROBLEMI.
IL MATERIALE DELLE LEZIONI SARÀ DISPONIBILE SULLA PIATTAFORMA E-LEARNING DIPARTIMENTALE HTTP://ELEARNING.INFORMATICA.UNISA.IT/EL-PLATFORM/
Orari Lezioni

  BETA VERSION Fonte dati ESSE3 [Ultima Sincronizzazione: 2024-11-18]