FONDAMENTI DI DATA SCIENCE E MACHINE LEARNING

Giuseppe POLESE FONDAMENTI DI DATA SCIENCE E MACHINE LEARNING

0522500135
DIPARTIMENTO DI INFORMATICA
CORSO DI LAUREA MAGISTRALE
INFORMATICA
2019/2020



ANNO CORSO 1
ANNO ORDINAMENTO 2016
SECONDO SEMESTRE
CFUOREATTIVITÀ
972LEZIONE
Obiettivi
L’INSEGNAMENTO MIRA A FORNIRE LE COMPETENZE METODOLOGICHE E TECNOLOGICHE NECESSARIE PER ESTRARRE CONOSCENZA DA GROSSI VOLUMI DI DATI, MEDIANTE TECNICHE DI DATA MINING E MACHINE LEARNING, UTILIZZANDO OPPORTUNE STRATEGIE DI VISUALIZZAZIONE DEI RISULTATI. IN PARTICOLARE, SI INTENDONO INTEGRARE LE CONOSCENZE DI DATA MANAGEMENT ACQUISITE NELL’AMBITO DI ALTRI CORSI DI BASI DI DATI CON COMPETENZE UTILI ALLO SVOLGIMENTO DELLA PROFESSIONE DEL DATA SCIENTIST.

LE PRINCIPALI CONOSCENZE ACQUISITE SARANNO:
•BIG DATA
•DATA WRANGLING
•ESTRAZIONE AUTOMATICA DI DIPENDENZE TRA I DATI
•DATA QUALITY E DATA CLEANSING
•DATA INTEGRATION
•DATA E TEXT MINING
•MAPREDUCE
•FUNZIONI DI SIMILARITÀ
•MACHINE LEARNING
•VISUAL DATA ANALYTICS
•DATA JOURNALISM

LE PRINCIPALI ABILITÀ (OSSIA LA CAPACITÀ DI APPLICARE LE CONOSCENZE ACQUISITE) SARANNO:
•ACQUISIRE, ORGANIZZARE, GESTIRE ED ELABORARE GRANDI VOLUMI DI DATI
•ESTRARRE CONOSCENZA DAI DATI
•SELEZIONARE DATI UTILI
•ORGANIZZARE UN PROGETTO BASATO SU TECNICHE DI MACHINE LEARNING
•COMUNICARE LA CONOSCENZA ESTRATTA DAI DATI ATTRAVERSO DIVERSE FORME DI RAPPRESENTAZIONE, INCLUSO TECNICHE VISUALI.
Prerequisiti
LO STUDENTE DEVE CONOSCERE I FONDAMENTI DI DATA MANAGEMENT, SISTEMI DISTRIBUITI, PARADIGMA AD OGGETTI ED UN LINGUAGGIO DI PROGRAMMAZIONE.
Contenuti

DOPO UNA PANORAMICA SUI NUOVI SCENARI APPLICATIVI LEGATI ALLA GESTIONE DI GRANDI COLLEZIONI DI DATI DISTRIBUITI ED ETEROGENEI, INCLUSO LE POTENZIALITÀ DI TECNOLOGIE CAPACI DI ESTRARRE CONOSCENZA DAI DATI, IL CORSO SI CONCENTRERÀ SUI SEGUENTI ARGOMENTI:

BIG DATA (4 ORE DI TEORIA)
•PROBLEMATICHE DI BIG DATA (2 ORE DI TEORIA)
•TECNOLOGIE DI SUPPORTO AI BIG DATA (2 ORE DI TEORIA)

DATA PREPARATION (18 ORE DI TEORIA)
•DATA PROFILING (4 ORE DI TEORIA)
•DIPENDENZE FUNZIONALI APPROSSIMATE E LORO UTILIZZO NEL DATA QUALITY (8 ORE DI TEORIA)
•INTEGRAZIONE DATI DA SORGENTI MULTIPLE (4 ORE DI TEORIA)
•DATA CLEANSING (2 ORE DI TEORIA)

ESTRAZIONE DI CONOSCENZA DA GRANDI COLLEZIONI DI DATI (20 ORE DI TEORIA)
•MAPREDUCE (4 ORE DI TEORIA)
•FUNZIONI DI SIMILARITÀ (6 ORE DI TEORIA)
•INTRODUZIONE AL DATA MINING (2 ORE DI TEORIA)
•ALGORITMO APRIORI (2 ORE DI TEORIA)
•CLASSIFICAZIONE/REGRESSIONE (4 ORE DI TEORIA)
•CLUSTERING (2 ORE DI TEORIA)

MACHINE LEARNING (22 ORE DI TEORIA)
•FORME DI APPRENDIMENTO (1 ORA DI TEORIA)
•APPRENDIMENTO BASATO SU MODELLI VS ISTANZE (1 ORA DI TEORIA)
•RIDUZIONE DELLE DIMENSIONI (2 ORE DI TEORIA)
•ALBERI DI DECISIONE (2 ORE DI TEORIA)
•ENSEMBLE LEARNING AND RANDOM FOREST (2 ORE DI TEORIA)
•SUPPORT VECTOR MACHINE (2 ORE DI TEORIA)
•MACCHINE KERNEL (2 ORE DI TEORIA)
•INTRODUZIONE ALLE RETI NEURALI (1 ORA DI TEORIA)
•TENSOR FLOW (1 ORA DI TEORIA)
•RETI NEURALI ARTIFICIALI (2 ORE DI TEORIA)
•RETI CONVOLUZIONALI (2 ORE DI TEORIA)
•RETI RICORRENTI (2 ORE DI TEORIA)
•APPRENDIMENTO PER RINFORZO (2 ORE DI TEORIA)

VISUAL DATA ANALYTICS (2 ORE DI TEORIA)
•TECNICHE DI RAPPRESENTAZIONE VISUALE (1 ORA DI TEORIA)
•TECNOLOGIE PER LA VISUALIZZAZIONE DEI RISULTATI DI ANALISI COMPLESSE (1 ORA DI TEORIA)

LABORATORIO
•IL LINGUAGGIO PYTHON (4 ORE DI LABORATORIO)
•WEKA (2 ORE DI LABORATORIO)
Metodi Didattici
L’INSEGNAMENTO PREVEDE 66 ORE DI DIDATTICA FRONTALE SU ARGOMENTI TEORICI E 6 ORE SU LINGUAGGI E STRUMENTI APPLICATIVI, CON L’OBIETTIVO DI PRESENTARE I CONCETTI E SVILUPPARE CAPACITÀ DI PROGETTARE E IMPLEMENTARE SOLUZIONI PER PROBLEMATICHE DI DATA SCIENCE E MACHINE LEARNING. GLI ARGOMENTI DEL PROGRAMMA VENGONO PRESENTATI CON L’AUSILIO DI PRESENTAZIONI POWERPOINT, STIMOLANDO DISCUSSIONI CRITICHE CON LA CLASSE. PER OGNI ARGOMENTO TRATTATO, VENGONO ILLUSTRATI POSSIBILI TASK CHE POSSONO ESSERE OGGETTO DI UN PROGETTO DI CORSO DA PARTE DI UNO O PIÙ STUDENTI. PER QUANTO RIGUARDA GLI STRUMENTI APPLICATIVI, OLTRE ALL’UTILIZZO DI PRESENTAZIONI POWERPOINT, NELLE QUALI VENGONO PRESENTATI CONCETTI ED EVENTUALI LINK A FORUM, MANUALI E SITI DI APPROFONDIMENTO, VENGONO EFFETTUATE SIMULAZIONI AL COMPUTER, LE QUALI VENGONO ESEGUITE ANCHE DAGLI STUDENTI DALLA PROPRIA POSTAZIONE, AVENDO ESSI LA POSSIBILITÀ DI CHIEDERE CHIARIMENTI E RISOLVERE EVENTUALI PROBLEMI TECNICI INSIEME AL DOCENTE.
Verifica dell'apprendimento
IL RAGGIUNGIMENTO DEGLI OBIETTIVI DELL’INSEGNAMENTO E CERTIFICATO MEDIANTE IL SUPERAMENTO DI UN ESAME CON VALUTAZIONE IN TRENTESIMI. L'ESAME PREVEDE UNA PROVA SCRITTA (IN ALTERNATIVA, UNA PROVA IN ITINERE A METÀ CORSO), LO SVILUPPO DI UN PROGETTO ED UNA PROVA ORALE. LA PROVA SCRITTA (O QUELLA IN ITINERE) MIRA AD ACCERTARE L’ACQUISIZIONE DEI CONCETTI TEORICI. IL PROGETTO È FINALIZZATO AD ACCERTARE LA CAPACITA DI APPLICARE LE CONOSCENZE ACQUISITE. ESSO PUÒ ESSERE SVOLTO INDIVIDUALMENTE O IN GRUPPI DI MASSIMO 3 PERSONE, SCEGLIENDO TRA UN VENTAGLIO DI PROPOSTE FATTE DAL DOCENTE. DURANTE LO SVOLGIMENTO DEL PROGETTO GLI STUDENTI DOVRANNO INTERAGIRE CON IL DOCENTE DEL CORSO AL FINE DI COMUNICARE GLI STATI DI AVANZAMENTO DELLO STESSO E LE EVENTUALI CRITICITÀ EMERSE, CONCORDANDO OBIETTIVI E MODALITÀ DI PROSECUZIONE DEL PROGETTO. AL TERMINE DEL PROGETTO GLI STUDENTI DEVONO CONSEGNARE AL DOCENTE UNA TESINA CONTENENTE LA DOCUMENTAZIONE DI PROGETTO ED UNA PRESENTAZIONE POWERPOINT DEL PROGETTO DELLA DURATA DI CIRCA 30 MINUTI. SUCCESSIVAMENTE ALLA PRESENTAZIONE DEL PROGETTO GLI STUDENTI DEVONO SOSTENERE UNA PROVA ORALE INDIVIDUALE. TALE PROVA CONSISTE IN UN COLLOQUIO CON DOMANDE E DISCUSSIONE SUI CONTENUTI TEORICI E METODOLOGICI TRATTATI A LEZIONE ED E FINALIZZATA AD ACCERTARE LA CAPACITA DI CONOSCENZA E COMPRENSIONE, NONCHÉ LA CAPACITA DI ESPOSIZIONE DEI CONCETTI. LA PROVA ORALE PUÒ ESSERE SVOLTA NELLA STESSA DATA DELLA PRESENTAZIONE DEL PROGETTO, OPPURE IN ALTRA DATA CHE I SINGOLI MEMBRI DEL GRUPPO POSSONO CONCORDARE CON IL DOCENTE.
IL VOTO FINALE SCATURISCE, GENERALMENTE, DALLA MEDIA PESATA DEI VOTI IN TRENTESIMI CONSEGUITI IN CIASCUNA DELLE TRE PROVE, 30% PER LA PROVA SCRITTA (O PROVA IN ITINERE), 40% PER IL PROGETTO E 30% PER LA PROVA ORALE.
Testi
1. JURE LESKOVEC, ANAND RAJARAMAN, JEFFREY D. ULLMAN, “MINING OF MASSIVE DATASETS”, 2^ EDIZIONE, CAMBRIDGE UNIVERSITY PRESS, 2014.

2. AURÉLIEN GÉRON, "HANDS-ON MACHINE LEARNING WITH SCIKIT-LEARN AND TENSORFLOW“, O REILLY ED.

3. C. BISHOP, NEURAL NETWORKS FOR PATTERN RECOGNITION, CLARENDON PRESS, OXFORD, 1995.

4. FOSTER PROVOST, TOM FAWCETT, DATA SCIENCE FOR BUSINESS: WHAT YOU NEED TO KNOW ABOUT DATA MINING AND DATA-ANALYTIC THINKING, O REILLY ED.
Altre Informazioni
LA FREQUENZA DEL CORSO È FORTEMENTE CONSIGLIATA. GLI STUDENTI DEVONO ESSERE PREPARATI A TRASCORRERE UNA CONGRUA QUANTITÀ DI TEMPO NELLO STUDIO AL DI FUORI DELLE LEZIONI. UNA PREPARAZIONE SODDISFACENTE RICHIEDE IN MEDIA 1 ORA DI STUDIO PER CIASCUNA ORA TRASCORSA IN AULA E CIRCA 80 ORE PER LO SVILUPPO DEL PROGETTO.
IL MATERIALE DELLE LEZIONI SARÀ DISPONIBILE SULLA PIATTAFORMA E-LEARNING DIPARTIMENTALE HTTP://ELEARNING.INFORMATICA.UNISA.IT/EL-PLATFORM/

CONTATTI

PROF. GIUSEPPE POLESE
GPOLESE@UNISA.IT
  BETA VERSION Fonte dati ESSE3 [Ultima Sincronizzazione: 2021-02-19]