VINCENZO CANDILA | Progetti
VINCENZO CANDILA Progetti
LA VEROSIMIGLIANZA EMPIRICA PER L'INDIVIDUAZIONE DI DATI ANOMALI NEI MODELLI DI REGRESSIONE
Lo scopo della ricerca è quello di investigare le proprietà di un nuovo approccio basato sulla verosimiglianza empirica per individuare dati anomali nei modelli di regressione lineare e non lineare. Se trattiamo il dato anomalo come un parametro non noto, il rapporto di verosimiglianza empirica non può essere utilizzato in quanto la distribuzione asintotica del chi quadrato non può essere applicata per i dati anomali. Per tale motivo si vuole considerare il rapporto di verosimiglianza empirica nel punto di massima verosimiglianza empirica, e dimostrare che l'eliminazione di una osservazione produce un cambiamento asintoticamente trascurabile se l'osservazione non è un dato anomalo, ma un notevole incremento, che cresce al crescere del numero di dati, se l'osservazione è un dato anomalo. Sulla base di tale statistica, si vuole proporre un test per individuare valori anomali nei modelli di regressione. La statistica test che proponiamo è una forma quadratica standardizzata e può essere approssimata da una variabile casuale chi quadrato, ma la sua distribuzione esatta dipende dalla forma delle funzioni di stima. Un primo passo sarà quello di determinare la distribuzione campionaria ipotizzando che le funzioni di stima siano distribuite normalmente. In questo modo possiamo comprendere le potenzialità della nostra proposta nell'individuazione dei dati anomali. Questo ci permette anche un utile confronto con altre misure proposte in letteratura. Il passo successivo è quello di usare un approccio di tipo Bootstrap per determinare la distribuzione campionaria della nostra statistica test. Questo ci permetterà di poter utilizzare il nostro test senza dover imporre una particolare distribuzione per le funzioni di stima. Nella determinazione della distribuzione campionaria della statistica test valuteremo anche l'uso della teoria dei valori estremi e il metodo m out n Bootstrap. Per evitare problemi di swamping e masking in presenza di molti dati anomali implementeremo il nostro criterio nell'ambito di procedure più complesse utilizzate per individuare la presenza di molti dati anomali. Un altro aspetto che studieremo è quello della possibile relazione tra la nostra statistica test e le altre misure diagnostiche proposte in letteratura, come la distanza di Cook, i residui studentizzati e altre ancora. Infine, per verificare le performance della procedura verrà implementato un esperimento Monte Carlo in cui si considerano diversi modelli di regressione lineare e non lineare e differenti configurazioni di dati anomali.
Struttura | Dipartimento di Scienze Economiche e Statistiche/DISES | |
Responsabile | PERNA Cira | |
Tipo di finanziamento | Fondi dell'ateneo | |
Finanziatori | Università degli Studi di SALERNO | |
Importo | 2.366,00 euro | |
Periodo | 29 Luglio 2016 - 20 Settembre 2018 | |
Gruppo di Ricerca | PERNA Cira (Coordinatore Progetto) ALBANO Giuseppina (Ricercatore) CANDILA VINCENZO (Ricercatore) CORETTO Pietro (Ricercatore) CUCINA Domenico (Ricercatore) NAIMOLI ANTONIO (Ricercatore) NIGLIO Marcella (Ricercatore) PACELLA MASSIMO (Ricercatore) PALAZZO LUCIO (Ricercatore) RESTAINO Marialuisa (Ricercatore) |