Projects

Giancarlo NOTA Projects

IMPLEMENTAZIONE E TUNING DI UN SISTEMA PER IL SEMANTIC WEB DATA MINING BILINGUE

Il sistema di semantic data-mining monolingue Cataloga, che è alla base del sistema bilingue che si vuole implementare, procede come segue:1. all'interno di un testo rileva tutte le occorrenze di un numero finito di “parole composte”, a ognuna delle quali è associato uno o più campi semantici (domini di conoscenza);2. effettua un'analisi statistica dei domini di conoscenza a cui appartengono le parole individuate al passo precedente.Gli algoritmi e le strutture dati utilizzate permettono di riconoscere parole sovrapposte, anche in modo totale (es: “CARTA” e “sCARTAre”). L’intero processo di riconoscimento e catalogazione delle “parole composte” avviene con un unico passaggio dell’algoritmo, rendendolo molto veloce. In particolare, l'algoritmo lavora in tempo lineare rispetto alla lunghezza del testo, nel senso che il numero di passi che effettua dipende solo dalla lunghezza del testo e non dal numero di parole del dizionario. Questo significa che il dizionario potrebbe presentare anche milioni di entrate, senza che questo diminuisca la velocità di risposta del sistema. Queste due caratteristiche (recupero di parole sovrapposte e tempo di esecuzione indipendente dalla dimensione del dizionario, ma dipendente solo dalla lunghezza del testo) lo differenzia da sistemi basati su database, il cui tempo di esecuzione è una funzione del numero di elementi del dizionario.Il modulo lessicale bilingue da implementare in questo progetto utilizzerà un dizionario elettronico di parole composte. Tale dizionario presenterà la struttura di un dizionario elettronico 'italiano'-'lingua 2' bidirezionale. L'uso di tale dizionario a supporto degli algoritmi del sistema permetterà di raggiungere i seguenti obiettivi:1. Sarà possibile esaminare testi italiani, localizzare le unità lessicali terminologiche in essi contenute e tradurle direttamente nella seconda lingua;2. Sarà possibile utilizzare questo sistema come strumento di analisi preliminare per i processi di traduzione automatica, semi-automatica e assistita da computer;3. poiché il dizionario è bilingue bidirezionale, sarà possibile utilizzarlo anche per effettuare il semantic-based data mining su testi scritti nella seconda lingua, senza dover costruire dizionari semantici per tale lingua, ma utilizzando quelli già esistenti per l'Italiano.Il dizionario, che al momento è in versione preliminare e che va completato da un pool di linguisti computazionali, includerà solo parole composte polirematiche, in virtù della loro bassa ambiguità semantica. Quindi, la creazione di un modulo lessicale bilingue bidirezionale 'italiano'-'lingua 2' permetterà di costruire un efficace software di data-mining semantico utilizzabile per i testi scritti in una qualsiasi altra lingua, differente dall'Italiano.Nel primo anno di progetto si è proceduto alla progettazione di massima e dettagliata del sistema software, con l’individuazione delle opportune strutture dati e la scelta e la personalizzazione degli algoritmi più adatti e si è realizzato un primo prototipo software (che abbiamo chiamato TRASFORMA).Nel secondo anno di progetto, oggetto della presente richiesta di finanziamento, si provvederà all’implementazione effettiva del sistema e al suo tuning, che procederà utilizzando un insieme di dizionari bilingui necessariamente ridotti in dimensione, in quanto lo sviluppo di dizionari bilingui completi è un processo lungo e costoso e verrà completato solo dopo che il sistema avrà mostrato in pieno la sua applicabilità.

DepartmentDipartimento di Scienze Aziendali - Management & Innovation Systems/DISA-MIS
FundingUniversity funds
FundersUniversità  degli Studi di SALERNO
Cost2.200,00 euro
Project duration11 December 2013 - 11 December 2015
Proroga11 dicembre 2016
Research TeamPOSTIGLIONE Alberto (Project Coordinator)
AIELLO Rossella (Researcher)
DI BUONO MARIA PIA (Researcher)
DI MAIO Francesco (Researcher)
FONSMORTI ANDREA (Researcher)
MARANO FEDERICA (Researcher)
MELILLO LORENZA (Researcher)
MONTELEONE Mario (Researcher)
MONTI JOHANNA (Researcher)
NOTA Giancarlo (Researcher)
TALAMO Maurizio (Researcher)
VILLARI ILARIA MARIA (Researcher)