FONDAMENTI DI DATA SCIENCE E MACHINE LEARNING

Giuseppe POLESE FONDAMENTI DI DATA SCIENCE E MACHINE LEARNING

0522500135
DIPARTIMENTO DI INFORMATICA
CORSO DI LAUREA MAGISTRALE
INFORMATICA
2021/2022



ANNO CORSO 1
ANNO ORDINAMENTO 2016
SECONDO SEMESTRE
CFUOREATTIVITÀ
972LEZIONE
Obiettivi
L’INSEGNAMENTO MIRA A FORNIRE LE COMPETENZE METODOLOGICHE E TECNOLOGICHE NECESSARIE PER ESTRARRE CONOSCENZA DA GROSSI VOLUMI DI DATI, MEDIANTE TECNICHE DI DATA MINING E MACHINE LEARNING, UTILIZZANDO OPPORTUNE STRATEGIE DI VISUALIZZAZIONE DEI RISULTATI. IN PARTICOLARE, SI INTENDONO INTEGRARE LE CONOSCENZE DI DATA MANAGEMENT ACQUISITE NELL’AMBITO DI ALTRI CORSI DI BASI DI DATI CON COMPETENZE UTILI ALLO SVOLGIMENTO DELLA PROFESSIONE DEL DATA SCIENTIST.
CONOSCENZA E CAPACITÀ DI COMPRENSIONE
LE PRINCIPALI CONOSCENZE ACQUISITE SARANNO:
•BIG DATA
•DATA WRANGLING
•ESTRAZIONE AUTOMATICA DI DIPENDENZE TRA I DATI
•DATA QUALITY E DATA CLEANSING
•DATA INTEGRATION
•DATA E TEXT MINING
•MAPREDUCE
•FUNZIONI DI SIMILARITÀ
•MACHINE LEARNING
•VISUAL DATA ANALYTICS

CAPACITÀ DI APPLICARE CONOSCENZA E COMPRENSIONE
GLI STUDENTI ACQUISIRANNO LA CAPACITÀ DI:
•ACQUISIRE, ORGANIZZARE, GESTIRE ED ELABORARE GRANDI VOLUMI DI DATI
•ESTRARRE CONOSCENZA DAI DATI
•SELEZIONARE DATI UTILI
•ORGANIZZARE UN PROGETTO BASATO SU TECNICHE DI MACHINE LEARNING
•COMUNICARE LA CONOSCENZA ESTRATTA DAI DATI ATTRAVERSO DIVERSE FORME DI RAPPRESENTAZIONE, INCLUSO TECNICHE VISUALI.
Prerequisiti
LO STUDENTE DEVE CONOSCERE I FONDAMENTI DI DATA MANAGEMENT, SISTEMI DISTRIBUITI, PARADIGMA AD OGGETTI ED UN LINGUAGGIO DI PROGRAMMAZIONE.
Contenuti
DOPO UNA PANORAMICA SUI NUOVI SCENARI APPLICATIVI LEGATI ALLA GESTIONE DI GRANDI COLLEZIONI DI DATI DISTRIBUITI ED ETEROGENEI, INCLUSO LE POTENZIALITÀ DI TECNOLOGIE CAPACI DI ESTRARRE CONOSCENZA DAI DATI, IL CORSO SI CONCENTRERÀ SUI SEGUENTI ARGOMENTI:

BIG DATA (4 ORE DI TEORIA)
•PROBLEMATICHE DI BIG DATA (2 ORE DI TEORIA)
•TECNOLOGIE DI SUPPORTO AI BIG DATA (2 ORE DI TEORIA)

DATA PREPARATION (16 ORE DI TEORIA)
•DATA PROFILING (4 ORE DI TEORIA)
•DIPENDENZE FUNZIONALI APPROSSIMATE E LORO UTILIZZO NEL DATA QUALITY (6 ORE DI TEORIA)
•INTEGRAZIONE DATI DA SORGENTI MULTIPLE (4 ORE DI TEORIA)
•DATA CLEANSING (2 ORE DI TEORIA)

ESTRAZIONE DI CONOSCENZA DA GRANDI COLLEZIONI DI DATI (14 ORE DI TEORIA)
•MAPREDUCE (4 ORE DI TEORIA)
•VALUTAZIONE DELLA SIMILARITÀ (6 ORE DI TEORIA)
•INTRODUZIONE AL DATA MINING (2 ORE DI TEORIA)
•ALGORITMO APRIORI (2 ORE DI TEORIA)

MACHINE LEARNING (30 ORE DI TEORIA)
•CONCETTI INTRODUTTIVI (3 ORE DI TEORIA)
•FASI DI UN PROGETTO DI MACHINE LEARNING (5 ORE DI TEORIA)
•CLASSIFICAZIONE/REGRESSIONE (3 ORE DI TEORIA)
•ALBERI DI DECISIONE (2 ORE DI TEORIA)
•ENSEMBLE LEARNING AND RANDOM FOREST (2 ORE DI TEORIA)
•CLUSTERING (2 ORE DI TEORIA)
•RIDUZIONE DELLA DIMENSIONALITÀ (2 ORE DI TEORIA)
•SUPPORT VECTOR MACHINE (2 ORE DI TEORIA)
•INTRODUZIONE ALLE RETI NEURALI (2 ORA DI TEORIA)
•TENSOR FLOW (1 ORA DI TEORIA)
•RETI NEURALI ARTIFICIALI (2 ORE DI TEORIA)
•RETI CONVOLUZIONALI (2 ORE DI TEORIA)
•RETI RICORRENTI (2 ORE DI TEORIA)

STRUMENTI PER LA DATA SCIENCE
•IL LINGUAGGIO PYTHON (6 ORE FRONTALI)
•WEKA (2 ORE FRONTALI)
Metodi Didattici
L’INSEGNAMENTO PREVEDE 66 ORE DI DIDATTICA FRONTALE SU ARGOMENTI TEORICI E 6 ORE SU LINGUAGGI E STRUMENTI APPLICATIVI, CON L’OBIETTIVO DI PRESENTARE I CONCETTI E SVILUPPARE CAPACITÀ DI PROGETTARE E IMPLEMENTARE SOLUZIONI PER PROBLEMATICHE DI DATA SCIENCE E MACHINE LEARNING. GLI ARGOMENTI DEL PROGRAMMA VENGONO PRESENTATI CON L’AUSILIO DI PRESENTAZIONI POWERPOINT, STIMOLANDO DISCUSSIONI CRITICHE CON LA CLASSE. PER OGNI ARGOMENTO TRATTATO, VENGONO ILLUSTRATI POSSIBILI TASK CHE POSSONO ESSERE OGGETTO DI UN PROGETTO DI CORSO DA PARTE DI UNO O PIÙ STUDENTI. PER QUANTO RIGUARDA GLI STRUMENTI APPLICATIVI, OLTRE ALL’UTILIZZO DI PRESENTAZIONI POWERPOINT, NELLE QUALI VENGONO PRESENTATI CONCETTI ED EVENTUALI LINK A FORUM, MANUALI E SITI DI APPROFONDIMENTO, DURANTE L’ORARIO DI RICEVIMENTO VIENE OFFERTA AGLI STUDENTI LA POSSIBILITÀ DI CHIEDERE SUPPORTO IN MERITO A SIMULAZIONI DA ESSI EFFETTUATE SUL PROPRIO COMPUTER, DI CHIEDERE CHIARIMENTI E RISOLVERE EVENTUALI PROBLEMI TECNICI INSIEME AL DOCENTE.
Verifica dell'apprendimento
IL RAGGIUNGIMENTO DEGLI OBIETTIVI DELL’INSEGNAMENTO E CERTIFICATO MEDIANTE IL SUPERAMENTO DI UN ESAME CON VALUTAZIONE IN TRENTESIMI. L'ESAME PREVEDE UNA PROVA SCRITTA (IN ALTERNATIVA, UNA PROVA IN ITINERE A METÀ CORSO), LO SVILUPPO DI UN PROGETTO ED UNA PROVA ORALE. LA PROVA SCRITTA (O QUELLA IN ITINERE) MIRA AD ACCERTARE L’ACQUISIZIONE DEI CONCETTI TEORICI. IL PROGETTO È FINALIZZATO AD ACCERTARE LA CAPACITA DI APPLICARE LE CONOSCENZE ACQUISITE. ESSO PUÒ ESSERE SVOLTO INDIVIDUALMENTE O IN GRUPPI DI MASSIMO 3 PERSONE, SCEGLIENDO TRA UN VENTAGLIO DI PROPOSTE FATTE DAL DOCENTE. DURANTE LO SVOLGIMENTO DEL PROGETTO GLI STUDENTI DOVRANNO INTERAGIRE CON IL DOCENTE AL FINE DI COMUNICARE GLI STATI DI AVANZAMENTO DELLO STESSO E LE EVENTUALI CRITICITÀ EMERSE, CONCORDANDO OBIETTIVI E MODALITÀ DI PROSECUZIONE DEL PROGETTO. AL TERMINE DEL PROGETTO GLI STUDENTI DEVONO CONSEGNARE AL DOCENTE UNA TESINA CONTENENTE LA DOCUMENTAZIONE DI PROGETTO ED UNA PRESENTAZIONE POWERPOINT DEL PROGETTO DELLA DURATA DI CIRCA 30 MINUTI. SUCCESSIVAMENTE ALLA PRESENTAZIONE DEL PROGETTO GLI STUDENTI DEVONO SOSTENERE UNA PROVA ORALE INDIVIDUALE. TALE PROVA CONSISTE IN UN COLLOQUIO CON DOMANDE E DISCUSSIONE SUI CONTENUTI TEORICI E METODOLOGICI TRATTATI A LEZIONE ED E FINALIZZATA AD ACCERTARE LA CAPACITA DI CONOSCENZA E COMPRENSIONE, NONCHÉ LA CAPACITA DI ESPOSIZIONE DEI CONCETTI. LA PROVA ORALE PUÒ ESSERE SVOLTA NELLA STESSA DATA DELLA PRESENTAZIONE DEL PROGETTO, OPPURE IN ALTRA DATA CHE I SINGOLI MEMBRI DEL GRUPPO POSSONO CONCORDARE CON IL DOCENTE.
IL VOTO FINALE SCATURISCE, GENERALMENTE, DALLA MEDIA PESATA DEI VOTI IN TRENTESIMI CONSEGUITI IN CIASCUNA DELLE TRE PROVE, 33,33% PER LA PROVA SCRITTA (O PROVA IN ITINERE), 33,33% PER IL PROGETTO E 33,33% PER LA PROVA ORALE.
Testi
1.JURE LESKOVEC, ANAND RAJARAMAN, JEFFREY D. ULLMAN, MINING OF MASSIVE DATASETS”, 3^ EDIZIONE, CAMBRIDGE UNIVERSITY PRESS, 2020.
2.AURÉLIEN GÉRON, HANDS-ON MACHINE LEARNING WITH SCIKIT-LEARN AND TENSORFLOW, O REILLY ED.
3.MÜLLER, ANDREAS C., AND SARAH GUIDO. INTRODUCTION TO MACHINE LEARNING WITH PYTHON: A GUIDE FOR DATA SCIENTISTS. " O'REILLY MEDIA, INC.", 2016.
4.CHIRAG SHAH, A HANDS-ON INTRODUCTION TO DATA SCIENCE, CAMBRIDGE UNIVERSITY PRESS, 2020.
5.FOSTER PROVOST, TOM FAWCETT, DATA SCIENCE FOR BUSINESS: WHAT YOU NEED TO KNOW ABOUT DATA MINING AND DATA-ANALYTIC THINKING, O REILLY ED.
6.P. DEITEL, H. DEITEL, INTRODUZIONE A PYTHON – PER L’INFORMATICA E LA DATA SCIENCE, PEARSON 2021.
Altre Informazioni
LA FREQUENZA DEL CORSO È FORTEMENTE CONSIGLIATA. GLI STUDENTI DEVONO ESSERE PREPARATI A TRASCORRERE UNA CONGRUA QUANTITÀ DI TEMPO NELLO STUDIO AL DI FUORI DELLE LEZIONI. UNA PREPARAZIONE SODDISFACENTE RICHIEDE IN MEDIA 1 ORA DI STUDIO PER CIASCUNA ORA TRASCORSA IN AULA E CIRCA 80 ORE PER LO SVILUPPO DEL PROGETTO.
IL MATERIALE DELLE LEZIONI SARÀ DISPONIBILE SULLA PIATTAFORMA E-LEARNING DIPARTIMENTALE HTTP://ELEARNING.INFORMATICA.UNISA.IT/EL-PLATFORM/

CONTATTI

PROF. GIUSEPPE POLESE
GPOLESE@UNISA.IT
  BETA VERSION Fonte dati ESSE3 [Ultima Sincronizzazione: 2022-11-21]