MASSIVE DATA MINING

Domenico PARENTE MASSIVE DATA MINING

0222800008
DIPARTIMENTO DI SCIENZE AZIENDALI - MANAGEMENT & INNOVATION SYSTEMS
CORSO DI LAUREA MAGISTRALE
DATA SCIENCE E GESTIONE DELL'INNOVAZIONE
2025/2026



OBBLIGATORIO
ANNO CORSO 2
ANNO ORDINAMENTO 2022
PRIMO SEMESTRE
CFUOREATTIVITÀ
642LEZIONE
321LABORATORIO
Obiettivi
IL PERCORSO FORMATIVO (63 ORE) SI PROPONE DI FAR ACQUISIRE AGLI STUDENTI UNA DOTAZIONE DI CONOSCENZE RELATIVE ALL’ANALISI DI DATI, PROVENIENTI ANCHE DA FONTI ETEROGENEE, PER CONSENTIRE UNA GESTIONE SCALABILE CON COMPLESSI SISTEMI. IL CORSO SI PROPONE, INFATTI, DI SVILUPPARE CAPACITÀ ANALITICHE ORIENTATE ALLA RISOLUZIONE DI PROBLEMI COMPLESSI E ARTICOLATI CHE RICHIEDONO SOLUZIONI IBRIDE NELLA GESTIONE DI DATI ATTRAVERSO APPROCCI DI DATA MINING, CON TECNICHE DISTRIBUITE, CON PARADIGMI DI COMPUTAZIONE AVANZATI, FINALIZZATE AL DISCOVERY DATA-DRIVEN E ALLA PREDIZIONE.
LO STUDENTE, AL TERMINE DEL PERCORSO FORMATIVO, AVRÀ ACQUISITO CONOSCENZE TEORICHE E CAPACITÀ PRATICHE DI DATA ANALYTICS (PER LA RISOLUZIONE DI PROBLEMI DERIVANTI DALL’ACQUISIZIONE E GESTIONE DI GRANDI MOLI DI DATI).
IL CORSO MIRA A SVILUPPARE: I) COMPETENZE SUL DATA COLLECTION E FAVORIRE LO SVILUPPO DI CAPACITÀ DI ANALISI CRITICA, ATTRAVERSO UN APPROCCIO IBRIDO PER DEFINIRE UNA STRATEGIA COMPLESSIVA VOLTA A TRASFORMARE I DATI IN INFORMAZIONI UTILI, II) CAPACITÀ DI UTILIZZO DELLE PRINCIPALI TECNICHE E DEGLI STRUMENTI UTILI ALLA RISOLUZIONE DI TALUNE PROBLEMATICHE SPECIFICHE. LO STUDENTE SARÀ STIMOLATO ALLO SVILUPPO DI CAPACITÀ DI ANALISI E DESCRIZIONE/ESTRAZIONE DELLE CARATTERISTICHE INSITE NEI DATI, E L’ABILITÀ DI FORNIRE UN MODELLO ASTRATTO CHE EVIDENZI LE PECULIARITÀ RILEVATE DALL’ELABORAZIONE DEI DATI STESSI.
ALLA FINE DEL PERCORSO FORMATIVO, LO STUDENTE SAPRÀ:

· VALUTARE IN MANIERA CRITICA E IMPLEMENTARE IN AUTONOMIA ADEGUATE SOLUZIONI DI DATA SCIENCE IN DIVERSI CONTESTI;

· VALUTARE LE POTENZIALITÀ E I LIMITI DI IMPIEGO DELLE TECNICHE E DEI MODELLI APPRESI

· SCEGLIERE I CRITERI DECISIONALI, LE METODOLOGIE, LE TECNICHE E LE TECNOLOGIE PIÙ ADATTE ALLA SOLUZIONE DI PROBLEMI SPECIFICI E A CLASSI DI PROBLEMI.
LO STUDENTE, INOLTRE, SAPRÀ ATTUARE OPPORTUNE SINTESI PER COMUNICARE EFFICACEMENTE I RISULTATI DELL'ANALISI DEI DATI (ANCHE BIG DATA) ED EVIDENZIARNE GLI ASPETTI ESSENZIALI UTILI PER L'INDIVIDUAZIONE DELLE SOLUZIONI.
NFINE, LO STUDENTE SVILUPPERÀ LE CAPACITÀ DI:

· STUDIARE IN MODO AUTONOMO, INTEGRANDO EFFICACEMENTE LE CONOSCENZE ACQUISITE;

· MANTENERE AGGIORNATE LE PROPRIE COMPETENZE IN UN SETTORE IN CONTINUA EVOLUZIONE COME L'INFORMATICA;

· INTRAPRENDERE EFFICACEMENTE PERCORSI FORMATIVI DI LIVELLO SUPERIORE.
Prerequisiti
NOZIONI DI BASE RELATIVI ALLA GESTIONE DI ARCHIVI DI DATI (DATA BASE) E PENSIERO ALGORITMICO RIVOLTO AL PROBLEM SOLVING
Contenuti
OBIETTIVO DEL CORSO È, IN GENERALE, FORNIRE UNA PREPARAZIONE SOLIDA E MODERNA ALLA COMPRENSIONE E GESTIONE DELLE VARIE PROSPETTIVE E SFUMATURE CHE INTERVENGONO NELL'ANALISI COMPLETA DEI DATI.
I CONTENUTI INCLUDONO: LA MANIPOLAZIONE E ANALISI DEI DATI; APPROCCI METODOLOGICI E FORMALI AL DATA ANALYTICS;
IL CORSO È STRUTTURATO IN UN UNICO MODULO DI 63 ORE:
- INTRODUZIONE ALLA DATA SCIENCE, IL SUO IMPIEGO E IL RUOLO NEI DIVERSI AMBITI APPLICATIVI (3 ORE)
- CENNI DI DATA VISUALIZATION (3 ORE)
- BACKGROUND SULLE LIBRERIE PYTHON PER IL DATA MANIPULATION (3 ORE)
- MISURE DI SIMILARITÀ E DISSIMILARITÀ (3 ORE)
- SIMILAR ITEMS (LOCALITY SENSITIVE HASHING) (12 ORE)
- PREPROCESSING, DATA REDUCTION (3 ORE)
- FREQUENT ITEMSET (9 ORE)
- DIMENSIONAL REDUCTION (3 ORE)
- CLUSTERING (9 ORE)
- ADVANCED CLUSTERING (3 ORE)
- CLASSIFICATION (9 ORE)
- ADVANCED CLASSIFICATION (3 ORE)
Metodi Didattici
IL CORSO PREVEDE LEZIONI FRONTALI IN AULA (42 ORE) ED ESERCITAZIONI PRATICHE SUGLI ARGOMENTI TRATTATI (21 ORE DI LABORATORIO).
ENTRO LA FINE DEL CORSO GLI STUDENTI SARANNO IN GRADO DI:
1. VALUTARE E ARTICOLARE LA PERTINENZA DEI DATI PER UN PARTICOLARE PROBLEMA AZIENDALE O SOCIALE.
2. RACCOGLIERE, ARCHIVIARE E RECUPERARE DATI PROVENIENTI DA PIÙ ORIGINI.
3. PREELABORARE DIVERSI DATI IN FORMATI STANDARDIZZATI
4. EFFETTUARE ANALISI ESPLORATIVE DEI DATI PER GENERARE APPROFONDIMENTI DAI DATI.
5. VISUALIZZARE I DATI IN GRAFICI E ALTRE RAPPRESENTAZIONI VISIVE PER GENERARE APPROFONDIMENTI E SUPPORTARE IL PROCESSO DECISIONALE.
LA FREQUENZA ALLE LEZIONI NON È OBBLIGATORIA MA È FORTEMENTE CONSIGLIATA.
Verifica dell'apprendimento
L'INSEGNAMENTO PREVEDE UNA PROVA SCRITTA SOTTO FORMA DI PROGETTO E UNA PROVA ORALE. ENTRAMBE LE PROVE VERTERANNO SU TUTTI GLI ARGOMENTI TRATTATI DURANTE IL CORSO. LA VALUTAZIONE (IN TRENTESIMI) E' CALCOLATO COME MEDIA DEL PUNTEGGIO OTTENUTO AL PROGETTO E DI QUELLO OTTENUTO ALLA PROVA ORALE. IL PUNTEGGIO FINALE, QUANDO L'ESAME È SUPERATO, VIENE ESPRESSO SULLA BASE DELLA SCALA DA 18/30 (CONOSCENZA LIMITATA DEGLI ARGOMENTI) AL 30/30 LODE (IL CANDIDATO DIMOSTRA SIGNIFICATIVA PADRONANZA DEI CONTENUTI).



Testi
1) J. LESKOVEC, A. RAJARAMAN, J.D. ULLMAN, "MINING OF MASSIVE DATASETS", 2ND ED., CAMBRIDGE UNIVERSITY PRESS.
2) PEI, JIAN,KAMBER, MICHELINE,HAN, JIAWEI, "DATA MINING: CONCEPTS AND TECHNIQUES"
MORGAN KAUFMANN (THIRD EDITION)
Altre Informazioni
SLIDES E DISPENSE FORNITE DAL DOCENTE

Orari Lezioni

  BETA VERSION Fonte dati ESSE3 [Ultima Sincronizzazione: 2025-08-21]