MINING AND PROFILING DATA STREAMS

LOREDANA CARUCCIO MINING AND PROFILING DATA STREAMS

8860100006
DIPARTIMENTO DI INFORMATICA
Corso di Dottorato (D.M.226/2021)
INFORMATICA
2024/2025

ANNO CORSO 1
ANNO ORDINAMENTO 2024
PRIMO SEMESTRE
CFUOREATTIVITÀ
318LEZIONE
Obiettivi
L’OBIETTIVO FORMATIVO DELL’INSEGNAMENTO È QUELLO DI FORNIRE LE COMPETENZE METODOLOGICHE E TECNOLOGICHE NECESSARIE PER ANALIZZARE IN TEMPO REALE ENORMI FLUSSI DI DATI. NELLO SPECIFICO, VERRÀ PRESENTATA UNA PANORAMICA SUI METODI E LE TECNICHE PER PROFILARE I DATI E RICERCARE INFORMAZIONI UTILI DAI DATA STREAM, ALLO SCOPO DI ESTRARRE METADATI ED EFFETTUARE ATTIVITÀ DI LEARNING NON SUPERVISIONATO.

CONOSCENZA E CAPACITÀ DI COMPRENSIONE (KNOWLEDGE AND UNDERSTANDING):
FAR ACQUISIRE ALLO STUDENTE CONOSCENZE SU ALGORITMI, MODELLI E TECNOLOGIE PER LA GESTIONE DI GRANDI FLUSSI E SERIE DI DATI PROVENIENTI DA SENSORI O DISPOSITIVI IOT DI VARIO GENERE, AL FINE DI CONSENTIRE L’ESTRAZIONE AUTOMATICA DI INFORMAZIONI UTILI, CORRELAZIONI E PROPRIETÀ DEI DATI. IN PARTICOLARE, IL CORSO MIRA A SVILUPPARE NELLO STUDENTE LE SEGUENTI CONOSCENZE:

- PROPRIETÀ DEI DATI
- ALGORITMI PER L’ESTRAZIONE DI METADATI DI PROFILAZIONE
- CONTINUOUS DATA PROFILING
- SEQUENCE DATA MINING
- ANALISI DI DATA SERIES

CAPACITÀ DI APPLICARE CONOSCENZA E COMPRENSIONE (APPLYING KNOWLEDGE AND UNDERSTANDING):

IL CORSO MIRA A SVILUPPARE NELLO STUDENTE LE SEGUENTI CAPACITÀ:
• SAPER GESTIRE ED ANALIZZARE GRANDI FLUSSI DI DATI E LE LORO PROPRIETÀ.
• SAPER SELEZIONARE LE TECNICHE DI DATA PROFILING E DI MINING PIÙ IDONEE PER L’ANALISI DI DATI IN SCENARI A DIVERSI LIVELLI DI COMPLESSITÀ.
Prerequisiti
LO STUDENTE DEVE CONOSCERE I FONDAMENTI DI DATA MANAGEMENT, SISTEMI DISTRIBUITI, PARADIGMA AD OGGETTI ED UN LINGUAGGIO DI PROGRAMMAZIONE.
Contenuti
IL CORSO SI CONCENTRERÀ SUI SEGUENTI ARGOMENTI:

INTRODUZIONE AL DATA PROFILING (2 ORE DI TEORIA)
• DATA PROFILING TASK E TOOL (1 ORA DI TEORIA)
• SFIDE APERTE (1 ORA DI TEORIA)

DISCOVERY TASK: UCC & IND (2 ORE DI TEORIA)
• UNIQUE COLUMN COMBINATION (1 ORA DI TEORIA)
• INCLUSION DEPENDENCY (1 ORA DI TEORIA)

DIPENDENZE FUNZIONALI E ALGORITMI DI DISCOVERY (2 ORE DI TEORIA)
• DEFINIZIONE E PROPRIETÀ (1 ORA DI TEORIA)
• ALGORITMO TANE (1 ORA DI TEORIA)

DIPENDENZE FUNZIONALI RILASSATE (2 ORE DI TEORIA)
• DEFINIZIONE E CRITERI DI RILASSAMENTO (1 ORA DI TEORIA)
• ALGORITMI DIME E DOMINO (1 ORA DI TEORIA)

CONTINUOUS PROFILING (2 ORE DI TEORIA)
• CARATTERISTICHE PER PROBLEMA (1 ORA DI TEORIA)
• SOLUZIONI ALGORITMICHE (1 ORA DI TEORIA)

MINING DI SEQUENZE IN TEMPO REALE (6 ORE DI TEORIA)
• IL MODELLO DATA STREAM (1 ORA DI TEORIA)
• CAMPIONAMENTO DEI DATI IN UNO STREAM (1 ORA DI TEORIA)
• FILTRAGGIO DI STREAM: IL FILTRO DI BLOOM (1 ORA DI TEORIA)
• CONTEGGIO DI ELEMENTI DISTINTI IN UNO STREAM (1 ORA DI TEORIA)
• FINESTRE DECADENTI (1 ORE DI TEORIA)
• MINING DI PATTERN SEQUENZIALI (1 ORA DI TEORIA)

ANALISI DI DATA SERIES (2 ORE DI TEORIA)
Metodi Didattici
L’INSEGNAMENTO PREVEDE 18 ORE DI DIDATTICA FRONTALE, CON L’OBIETTIVO DI PRESENTARE I CONCETTI E SVILUPPARE CAPACITÀ DI PROGETTARE ED IMPLEMENTARE SOLUZIONI PER L’ANALISI IN TEMPO REALE DI SEQUENZE DI DATI. GLI ARGOMENTI DEL PROGRAMMA VENGONO PRESENTATI CON L’AUSILIO DI PRESENTAZIONI POWERPOINT, STIMOLANDO DISCUSSIONI CRITICHE CON LA CLASSE. PER OGNI ARGOMENTO TRATTATO, VENGONO ILLUSTRATI POSSIBILI TASK CHE POSSONO ESSERE OGGETTO DI UN PROGETTO DI CORSO DA PARTE DI UNO O PIÙ STUDENTI.
Verifica dell'apprendimento
IL RAGGIUNGIMENTO DEGLI OBIETTIVI DELL’INSEGNAMENTO E CERTIFICATO MEDIANTE IL SUPERAMENTO DI UN ESAME CON VALUTAZIONE IN TRENTESIMI. L'ESAME PREVEDE LO SVILUPPO DI UN PROGETTO FINALIZZATO AD ACCERTARE LA CAPACITÀ DI APPLICARE LE CONOSCENZE ACQUISITE. ESSO PUÒ ESSERE SVOLTO INDIVIDUALMENTE O IN GRUPPI DI MASSIMO 2 PERSONE, SCEGLIENDO LA TEMATICA TRA UN VENTAGLIO DI PROPOSTE FATTE DAI DOCENTI. DURANTE LO SVOLGIMENTO DEL PROGETTO GLI STUDENTI DOVRANNO INTERAGIRE CON I DOCENTI AL FINE DI COMUNICARE GLI STATI DI AVANZAMENTO DEL PROGETTO E LE EVENTUALI CRITICITÀ EMERSE, CONCORDANDO OBIETTIVI E MODALITÀ DI PROSECUZIONE. AL TERMINE, GLI STUDENTI DOVRANNO CONSEGNARE AI DOCENTI UNA TESINA CONTENENTE LA DOCUMENTAZIONE DI PROGETTO, OLTRE AD UNA PRESENTAZIONE POWERPOINT DELLA DURATA DI CIRCA 30 MINUTI.
Testi
1. MINING OF MASSIVE DATASETS. ANAND RAJARAMAN, JEFFREY DAVID ULLMAN. 2011. CAMBRIDGE UNIVERSITY PRESS.
2. PROFILING RELATIONAL DATA: A SURVEY. ZIAWASCH ABEDJAN, LUKASZ GOLAB, FELIX NAUMANN, VLDB JOURNAL, VOL. 24(4):557-581, 2015.
3. RELAXED FUNCTIONAL DEPENDENCIES: A SURVEY OF APPROACHES. LOREDANA CARUCCIO, VINCENZO DEUFEMIA, GIUSEPPE POLESE . IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING 28.1 (2015): 147-165.
Altre Informazioni
LA FREQUENZA DEL CORSO È FORTEMENTE CONSIGLIATA. GLI STUDENTI DEVONO ESSERE PREPARATI A TRASCORRERE UNA CONGRUA QUANTITÀ DI TEMPO NELLO STUDIO AL DI FUORI DELLE LEZIONI. UNA PREPARAZIONE SODDISFACENTE RICHIEDE IN MEDIA 1 ORA DI STUDIO PER CIASCUNA ORA TRASCORSA IN AULA E CIRCA 30 ORE PER LO SVILUPPO DEL PROGETTO.
IL MATERIALE DELLE LEZIONI SARÀ DISPONIBILE SULLA PIATTAFORMA E-LEARNING DIPARTIMENTALE HTTP://ELEARNING.INFORMATICA.UNISA.IT/EL-PLATFORM/

CONTATTI
PROF. GIUSEPPE POLESE
GPOLESE@UNISA.IT

PROF.SSA LOREDANA CARUCCIO
LCARUCCIO@UNISA.IT
Orari Lezioni

  BETA VERSION Fonte dati ESSE3 [Ultima Sincronizzazione: 2024-11-29]