Progetti

Filippo FIMIANI Progetti

SVILUPPO DI APPLICAZIONI PER LA LINGUISTICA COMPUTAZIONALE

L’attività del Farb si concentra su attività volte allo sviluppo di una piattaforma unitaria per la linguistica computazionale che possa essere resa pubblica e messa a disposizione di ricercatori e studenti. Le attività sviluppate sono le seguenti:a)Sviluppo di Applicazioni e moduli per la Linguistica Computazionale:a.Sviluppo di Dizionari Elettronici: l’attività in questione si concentra sulla trasformazione e sulla formalizzazione di Dizionari Elettronici di varie tipologie in un formato di dati omogeneo, esportabile e facilmente integrabile in ogni tipo di sistema software. Il dizionario elettronico dei nomi semplici dell’Italiano, che comprende oltre 1 milione di forme flesse, già esistente in un formato compatibile con la piattaforma NooJ, verrà modificato e convertito in formato Json in modo da renderlo fruibile ad un più vasto pubblico ed in particolare, utilizzabile da applicazioni di diverso genere. Allo stesso modo, il dizionario elettronico delle forme complesse verrà trasformato sistematicamente in un database Json. Un'altra risorsa, necessaria allo sviluppo di applicazioni rule-based di linguistica computazionale, basate sull’impianto teorico del Lessico-Grammatica, sarà il database dei verbi che verrà generato dalla formalizzazione elettronica (ancora un volta in formato Json) delle tavole dei verbi (Elia 1980). Le tavole, infatti, sono una risorsa strategica per ogni possibile futuro sviluppo dato che contengono informazioni di tipo sintattico-semantico circa oltre 4000 mila forme verbali dell’italiano, oltre che le loro strutture e relazioni con nomi ed aggettivi deverbali.b.PosTagger e Lemmatizzazione: grazie all’integrazione delle risorse dizionariali in fase di sviluppo, sarà possibile l’integrazione con sistemi probabilistici e non per il Part-of-Speech tagging e la Lemmatizzazione. Alcune risorse già esistenti saranno integrate con i dizionari elettronici e rese fruibili per la lingua italiana attraverso una piattaforma web limitata o il rilascio di API. Queste applicazioni ibride, sviluppate in Python o in Java, a loro volta fungeranno da base per successive analisi.c.Moduli per la statistica testuale: In parallelo saranno sviluppati dei moduli in Python ed in Java per l’analisi statistica e probabilistica dei testi, concentrandosi in particolare su vari aspetti: analisi delle frequenze e dei pesi delle parole all’interno dei testi come la Term Frequency, il TF-IDF o la Pointwise Mutual Information; analisi distribuzionale basata su matrici di cooccorrenza generate a partire dall’analisi di grossi corpora testuali.d.Parser Sintattico Lessico-Grammaticale: una delle attività principali del gruppo di ricerca sarà la produzione di un parser ibrido a dipendenze che sarà basato su alcuni lavori già esistenti per la lingua Inglese e che, oltre ad una componente di Deep-Learning e dunque un algoritmo di apprendimento statistico di natura avanzata, cercherà di superare i problemi più comuni dei processi di parsing automatico sviluppando un modulo rule-based in grado di lavorare in parallelo. Questo modulo rule-based sarà, ovviamente, basato sulle risorse di cui si è parlato in precedenza ed, in particolare, sui dizionari , sul Lemmatizzatore, e sul dizionario dei verbi, fondamentale, come già accennato, per ogni approccio di tipo lessico-grammaticale.

StrutturaDipartimento di Scienze Politiche e della Comunicazione/DISPC
Tipo di finanziamentoFondi dell'ateneo
FinanziatoriUniversità  degli Studi di SALERNO
Importo12.215,00 euro
Periodo20 Novembre 2017 - 20 Novembre 2020
Proroga20 febbraio 2021
Gruppo di RicercaELIA Annibale (Coordinatore Progetto)
ANNARUMMA Filomena (Ricercatore)
D'AGOSTINO Emilio (Ricercatore)
DE CHIARA Pasquale (Ricercatore)
DI MAIO Francesco (Ricercatore)
ESPOSITO FRANCESCA (Ricercatore)
FIMIANI Filippo (Ricercatore)
GUARASCI RAFFAELE (Ricercatore)
MAISTO Alessandro (Ricercatore)
MANCUSO AZZURRA (Ricercatore)
MELILLO LORENZA (Ricercatore)
MESSINA Simona (Ricercatore)
MONTELEONE Mario (Ricercatore)
PELOSI SERENA (Ricercatore)
STINGO MICHELE (Ricercatore)
VIETRI Simonetta (Ricercatore)