FONDAMENTI DI DATA SCIENCE E MACHINE LEARNING

Giuseppe POLESE FONDAMENTI DI DATA SCIENCE E MACHINE LEARNING

0522500135
DIPARTIMENTO DI INFORMATICA
CORSO DI LAUREA MAGISTRALE
INFORMATICA
2024/2025



ANNO CORSO 1
ANNO ORDINAMENTO 2016
SECONDO SEMESTRE
CFUOREATTIVITÀ
972LEZIONE
Obiettivi
L’INSEGNAMENTO MIRA A FORNIRE LE COMPETENZE METODOLOGICHE E TECNOLOGICHE NECESSARIE PER ESTRARRE CONOSCENZA DA GROSSI VOLUMI DI DATI, MEDIANTE TECNICHE DI DATA PROFILING, DATA MINING E MACHINE LEARNING, UTILIZZANDO OPPORTUNE STRATEGIE DI VISUALIZZAZIONE DEI RISULTATI. IN PARTICOLARE, SI INTENDONO INTEGRARE LE CONOSCENZE DI DATA MANAGEMENT ACQUISITE NELL’AMBITO DI ALTRI CORSI DI BASI DI DATI CON COMPETENZE UTILI ALLO SVOLGIMENTO DELLA PROFESSIONE DEL DATA SCIENTIST.

CONOSCENZA E CAPACITÀ DI COMPRENSIONE
LE PRINCIPALI CONOSCENZE ACQUISITE SARANNO:
•BIG DATA
•DATA WRANGLING
•ESTRAZIONE AUTOMATICA DI DIPENDENZE TRA I DATI
•DATA QUALITY E DATA CLEANSING
•DATA INTEGRATION
•DATA MINING
•MAPREDUCE
•FUNZIONI DI SIMILARITÀ
•MACHINE LEARNING
•RETI NEURALI

CAPACITÀ DI APPLICARE CONOSCENZA E COMPRENSIONE
GLI STUDENTI ACQUISIRANNO LA CAPACITÀ DI:
•ACQUISIRE, ORGANIZZARE, GESTIRE ED ELABORARE GRANDI VOLUMI DI DATI
•ESTRARRE CONOSCENZA DAI DATI
•SELEZIONARE DATI UTILI
•ORGANIZZARE UN PROGETTO BASATO SU TECNICHE DI MACHINE LEARNING
•COMUNICARE LA CONOSCENZA ESTRATTA DAI DATI ATTRAVERSO DIVERSE FORME DI RAPPRESENTAZIONE, INCLUSO TECNICHE VISUALI.
Prerequisiti
LO STUDENTE DEVE CONOSCERE I FONDAMENTI DI DATA MANAGEMENT, SISTEMI DISTRIBUITI, PARADIGMA AD OGGETTI ED UN LINGUAGGIO DI PROGRAMMAZIONE.
Contenuti
DOPO UNA PANORAMICA SUI NUOVI SCENARI APPLICATIVI LEGATI ALLA GESTIONE DI GRANDI COLLEZIONI DI DATI DISTRIBUITI ED ETEROGENEI, INCLUSO LE POTENZIALITÀ DI TECNOLOGIE CAPACI DI ESTRARRE CONOSCENZA DAI DATI, IL CORSO SI CONCENTRERÀ SUI SEGUENTI ARGOMENTI:

BIG DATA (4 ORE DI TEORIA)
•PROBLEMATICHE DI BIG DATA (2 ORE DI TEORIA)
•TECNOLOGIE DI SUPPORTO AI BIG DATA (2 ORE DI TEORIA)

DATA PREPARATION (12 ORE DI TEORIA)
•DATA PROFILING (4 ORE DI TEORIA)
•DIPENDENZE FUNZIONALI APPROSSIMATE E LORO UTILIZZO NEL DATA QUALITY (4 ORE DI TEORIA)
•INTEGRAZIONE DATI DA SORGENTI MULTIPLE (4 ORE DI TEORIA)

ESTRAZIONE DI CONOSCENZA DA GRANDI COLLEZIONI DI DATI (12 ORE DI TEORIA)
•MAPREDUCE (4 ORE DI TEORIA)
•VALUTAZIONE DELLA SIMILARITÀ (5 ORE DI TEORIA)
•INTRODUZIONE AL DATA MINING (2 ORE DI TEORIA)
•ALGORITMO APRIORI (1 ORA DI TEORIA)

MACHINE LEARNING (24 ORE DI TEORIA)
•CONCETTI INTRODUTTIVI (4 ORE DI TEORIA)
•FASI DI UN PROGETTO DI MACHINE LEARNING (5 ORE DI TEORIA)
•MODELLI DI ADDESTRAMENTO (2 ORE DI TEORIA)
•CLASSIFICAZIONE/REGRESSIONE (3 ORE DI TEORIA)
•ALBERI DI DECISIONE (2 ORE DI TEORIA)
•ENSEMBLE LEARNING AND RANDOM FOREST (2 ORE DI TEORIA)
•CLUSTERING (2 ORE DI TEORIA)
•RIDUZIONE DELLA DIMENSIONALITÀ (2 ORE DI TEORIA)
•SUPPORT VECTOR MACHINE (2 ORE DI TEORIA)

RETI NEURALI (14 ORE DI TEORIA)
•INTRODUZIONE ALLE RETI NEURALI (2 ORA DI TEORIA)
•TENSOR FLOW (2 ORE DI TEORIA)
•PERCETTRONI MULTILIVELLO E RETI NEURALI PROFONDE (2 ORE DI TEORIA)
•RETI CONVOLUZIONALI (2 ORE DI TEORIA)
•RETI RICORRENTI (4 ORE DI TEORIA)
•AUTOENCODER (2 ORE DI TEORIA)

STRUMENTI PER LA DATA SCIENCE (6 ORE DI TEORIA)
•IL LINGUAGGIO PYTHON (4 ORE FRONTALI)
•WEKA (2 ORE FRONTALI)
Metodi Didattici
L’INSEGNAMENTO PREVEDE 66 ORE DI DIDATTICA FRONTALE SU ARGOMENTI TEORICI E 6 ORE SU LINGUAGGI E STRUMENTI APPLICATIVI, CON L’OBIETTIVO DI PRESENTARE I CONCETTI E SVILUPPARE CAPACITÀ DI PROGETTARE E IMPLEMENTARE SOLUZIONI PER PROBLEMATICHE DI DATA SCIENCE E MACHINE LEARNING. GLI ARGOMENTI DEL PROGRAMMA VENGONO PRESENTATI CON L’AUSILIO DI PRESENTAZIONI POWERPOINT, STIMOLANDO DISCUSSIONI CRITICHE CON LA CLASSE. PER OGNI ARGOMENTO TRATTATO, VENGONO ILLUSTRATI POSSIBILI TASK CHE POSSONO ESSERE OGGETTO DI UN PROGETTO DI CORSO DA PARTE DI UNO O PIÙ STUDENTI. PER QUANTO RIGUARDA GLI STRUMENTI APPLICATIVI, OLTRE ALL’UTILIZZO DI PRESENTAZIONI POWERPOINT, NELLE QUALI VENGONO PRESENTATI CONCETTI ED EVENTUALI LINK A FORUM, MANUALI E SITI DI APPROFONDIMENTO, DURANTE L’ORARIO DI RICEVIMENTO VIENE OFFERTA AGLI STUDENTI LA POSSIBILITÀ DI CHIEDERE SUPPORTO IN MERITO A SIMULAZIONI DA ESSI EFFETTUATE SUL PROPRIO COMPUTER, DI CHIEDERE CHIARIMENTI E RISOLVERE EVENTUALI PROBLEMI TECNICI INSIEME AL DOCENTE.
Verifica dell'apprendimento
IL RAGGIUNGIMENTO DEGLI OBIETTIVI DELL’INSEGNAMENTO E CERTIFICATO MEDIANTE IL SUPERAMENTO DI UN ESAME CON VALUTAZIONE IN TRENTESIMI. L'ESAME PREVEDE UNA PROVA SCRITTA (IN ALTERNATIVA, UNA PROVA IN ITINERE A METÀ CORSO) ED UNA PROVA ORALE. INOLTRE, OPZIONALMENTE, GLI STUDENTI POSSONO SVILUPPARE UN PROGETTO PER INCREMENTARE IL VOTO OTTENUTO CON LE SUDDETTE PROVE. LA PROVA SCRITTA (O QUELLA IN ITINERE) MIRA AD ACCERTARE L’ACQUISIZIONE DEI CONCETTI TEORICI. LA PROVA ORALE INVECE CONSISTE IN UN COLLOQUIO CON DOMANDE E DISCUSSIONE SUI CONTENUTI TEORICI E METODOLOGICI TRATTATI A LEZIONE ED E FINALIZZATA AD ACCERTARE LA CAPACITA DI CONOSCENZA E COMPRENSIONE, NONCHÉ LA CAPACITA DI ESPOSIZIONE DEI CONCETTI. LA PROVA ORALE RAPPRESENTA LA PROVA FINALE, PERTANTO ESSA PUÒ ESSERE SVOLTA SOLO DOPO IL SUPERAMENTO DELLA PROVA SCRITTA E, QUALORA SI SIA OPTATO ANCHE PER LO SVILUPPO DEL PROGETTO, ANCHE DOPO IL COMPLETAMENTO E LA DISCUSSIONE DI QUEST’ULTIMO.
IL PROGETTO È FINALIZZATO AD ACCERTARE LA CAPACITA DI APPLICARE LE CONOSCENZE ACQUISITE IN SCENARI REALI. ESSO PUÒ ESSERE SVOLTO INDIVIDUALMENTE O IN GRUPPI DI MASSIMO 3 PERSONE, SCEGLIENDO TRA UN VENTAGLIO DI PROPOSTE FATTE DAL DOCENTE. DURANTE LO SVOLGIMENTO DEL PROGETTO, GLI STUDENTI POTRANNO INTERAGIRE CON IL DOCENTE AL FINE DI COMUNICARE GLI STATI DI AVANZAMENTO DELLO STESSO E LE EVENTUALI CRITICITÀ EMERSE, CONCORDANDO OBIETTIVI E MODALITÀ DI PROSECUZIONE. AL TERMINE DEL PROGETTO, GLI STUDENTI DEVONO CONSEGNARE AL DOCENTE UNA TESINA CONTENENTE LA DOCUMENTAZIONE DI PROGETTO RICEVENDO, DOPO QUALCHE SETTIMANA, UNA PRIMA VALUTAZIONE DELLO STESSO. QUEST’ULTIMA POTREBBE CONTENERE RICHIESTE DI INTEGRAZIONE E/O DI REVISIONE DEL LAVORO SVOLTO. PERTANTO, OCCORRE SOTTOMETTERE I RISULTATI DEL PROGETTO CON DIVERSE SETTIMANE DI ANTICIPO RISPETTO ALLA DATA IN CUI SI INTENDE SOSTENERE LA PROVA ORALE, ONDE CONSENTIRE AL DOCENTE DI EFFETTUARE LA CORREZIONE ED AL GRUPPO DI PROGETTO DI APPORTARE LE EVENTUALI CORREZIONI RICHIESTE. AL TERMINE DEL PROGETTO, AL GRUPPO DI PROGETTO POTREBBE ESSERE RICHIESTO DI PREPARARE UNA TESINA ED UNA PRESENTAZIONE POWERPOINT DELLA DURATA DI CIRCA 30 MINUTI.
IL VOTO FINALE SCATURISCE, GENERALMENTE, DALLA MEDIA DEI VOTI IN TRENTESIMI CONSEGUITI ALLA PROVA SCRITTA (ALTERNATIVAMENTE, QUELLA IN ITINERE) ED A QUELLA ORALE, CON LA POSSIBILITÀ DI INCREMENTARE IL PUNTEGGIO COSÌ OTTENUTO FINO A 3 PUNTI, TRAMITE LO SVILUPPO DEL PROGETTO.
Testi
1.JURE LESKOVEC, ANAND RAJARAMAN, JEFFREY D. ULLMAN, MINING OF MASSIVE DATASETS”, 3^ EDIZIONE, CAMBRIDGE UNIVERSITY PRESS, 2020.
2.AURÉLIEN GÉRON, " HANDS-ON MACHINE LEARNING WITH SCIKIT-LEARN, KERAS, AND TENSORFLOW: CONCEPTS, TOOLS, AND TECHNIQUES TO BUILD INTELLIGENT SYSTEMS “,2^ EDIZIONE, O REILLY ED, 2019.
3.MÜLLER, ANDREAS C., AND SARAH GUIDO. INTRODUCTION TO MACHINE LEARNING WITH PYTHON: A GUIDE FOR DATA SCIENTISTS. " O'REILLY MEDIA, INC.", 2016.
4.CHIRAG SHAH, A HANDS-ON INTRODUCTION TO DATA SCIENCE, CAMBRIDGE UNIVERSITY PRESS, 2020.
5.FOSTER PROVOST, TOM FAWCETT, DATA SCIENCE FOR BUSINESS: WHAT YOU NEED TO KNOW ABOUT DATA MINING AND DATA-ANALYTIC THINKING, O REILLY ED.
6.P. DEITEL, H. DEITEL, INTRODUZIONE A PYTHON – PER L’INFORMATICA E LA DATA SCIENCE, PEARSON 2021.
Altre Informazioni
LA FREQUENZA DEL CORSO È FORTEMENTE CONSIGLIATA. GLI STUDENTI DEVONO ESSERE PREPARATI A TRASCORRERE UNA CONGRUA QUANTITÀ DI TEMPO NELLO STUDIO AL DI FUORI DELLE LEZIONI. UNA PREPARAZIONE SODDISFACENTE RICHIEDE IN MEDIA 1 ORA DI STUDIO PER CIASCUNA ORA TRASCORSA IN AULA E CIRCA 80 ORE PER LO SVILUPPO DEL PROGETTO.
IL MATERIALE DELLE LEZIONI SARÀ DISPONIBILE SULLA PIATTAFORMA E-LEARNING DIPARTIMENTALE HTTP://ELEARNING.INFORMATICA.UNISA.IT/EL-PLATFORM/

CONTATTI

PROF. GIUSEPPE POLESE
GPOLESE@UNISA.IT
  BETA VERSION Fonte dati ESSE3 [Ultima Sincronizzazione: 2024-11-29]