Progetti

Roberto TAGLIAFERRI Progetti

BIG DATA ANALYTICSMETODOLOGIE DI ANALISI E INTERAZIONE CON I DATI E APPLICAZIONI SELEZIONATE

Nel settore dell'analisi dei dati di tipo Multiview saranno affrontati essenzialmente due applicazioni al campo della Medicina: Bioinformatica e Neuroimaging.Gli approcci perseguibili nella analisi di dati Multiview sono molteplici.:• Riduzione di dimensioni: usando tecniche quali PCA, ICA e CCA• Apprendimento Semi-supervisionato: L'idea è quella di usare pochi dati etichettati cercando di inferire le etichette delgli altri da questi(Co-training, Co-EM [6], Baeysian co-training, Robust co-training)• Apprendimento supervisionato: Discriminante di Fisher, combinazione di Kernel . • Clustering: Analisi di dati MultiView senza etichette. DBASCAN multi-view, EM a k-means, Spectral clustering multi-view, Metodi di Matrix factorization e di consenso.Le tecninche di integrazione possibili sono: • Early Integration: • Intermediate Integration: • Late Integration: $IMM_PER_0002Si applicheranno queste tecniche al problema del clusterng di dati genomici provenienti da esperimenti su pazienti affetti da cancro partendo ad almeno due domini di dati: espressione genica e MIRNA, lo schema di indagine proposto, basato sulla "Late Integration" consta dei seguenti passi:• Data preprocessing • Feature ranking • IntegrazioneNel primo step si cercherà di ridurre la enorme quantità di dati mediante filtraggio sulla base della varianza, trascurndo geni e miRNA caratterizzati da andamento piatto sul dataset. Dopo questo passo verranno individuati i pattern più significativi nei rimanenti geni e miRNA ottenendo due clusterizzazioni monoview. Si proveranno diversi algoritmi come PVclust, SOM, Ward Hierachical clustering, PAM e Kmeans, come misura di merito si userà la correlazione di Pearson.Alla fine di questa fase si dovrà operare un ranking delle feature in modo da ridurre ulteriomente le dimensioni dei dataset tagliando le caratteristiche le meno significative.Con questi risultati in mano si potrà affrontare il vero problema di data-integration. Riguardo a questo la tecnica più attraente sembra quella della matrix factorization, il maggor vantaggio di questo metodo di integrazione consiste nel fatto che non vi è un limite al numero di viste che è possibile integrare, se inoltre si hanno informazioni a priori sull'appartenenza dei campioni a determinate classi queste possono essere facilmente incluse nel processo.Queste metodologie saranno utilizzate in congiunzione con algoritmi di classificazione e selezione delle caratteristiche e con algoritmi su grafi per l’integrazione di ulteriori due tipologie di dati multi-vista, quelli relativi al microbioma e quelli relativi all’effetto dei nanomateriali su linee cellulari di vari tessuti animali e umani messi a disposizione dal FIOH di Helinki all’interno del progettto Europeo FP VII Nanosolutions e di altre collaborazioni internazionali, cui la nostra unità è parte.Un'altra interessante applicazione che si intende portare avanti riguarda la analisi basata su learning multiview su dati risultanti da diversi tipi di imaging neurologico. per esempio le informazioni anatomiche, MRI funzionale e di diffusione costituiscono diverse viste da cui vogliamo estrarre le informazioni riguardanti la composizione dei tessuti cerebrali, la attività funzionale e la connettività anatomica.Pensiamo che anche in questo settore l'applicazione delle tecnoche di fusione e federazione delle diverse viste sviluppate porteranno ad una più fondata modellistica di come le diverse aree del si orgnanizzano ed intergiscono funzionalmente nel cervello sano e in quello affetto da particolari disturbi.Sarà inoltre investigata la problematica dell’accesso a grosse moli di dati tramite interfacce semplici ed intuitive, includendo la possibilità di consultare i dati con diverse tecniche interattive, sia quelle classiche effettuate tramite dispositivi tradizionali, sia quelle più recenti (p.e gestuali e sketch-based) collegate ai nuovi dispositivi dotati di touchscreen come smartphone, tablet e smart watches.

StrutturaDipartimento di Scienze Aziendali - Management & Innovation Systems/DISA-MIS
Tipo di finanziamentoFondi dell'ateneo
FinanziatoriUniversità  degli Studi di SALERNO
Importo14.233,69 euro
Periodo28 Luglio 2015 - 28 Luglio 2017
Proroga28 gennaio 2019
Gruppo di RicercaTAGLIAFERRI Roberto (Coordinatore Progetto)
COSTAGLIOLA Gennaro (Ricercatore)
FUCCELLA Vittorio (Ricercatore)
RAICONI Giancarlo (Ricercatore)