Forum

Riempimento dati mancanti

Ciao a tutti,

ho una serie di dati campionati da una falda acquifera, in cui alcuni dati sono mancanti (come se fossero celle vuote in un file Excel). Il problema è che il software in uso non accetta dati mancanti. Qual è il modo/metodo migliore per riempire i valori vuoti?

Per aggiungere dei commenti, devi essere membro di StatisticaNing!

Join StatisticaNing

Inviami un'e-mail quando le persone aggiungono una risposta –

Risposte

  • Esperto
    Ciao.. ci sono diverse tecniche per il trattamento dei valori mancanti. La modifica più "banale" è la sostituzione di quei valori con la media perchè non influisce eccessivamente sulla distribuzione della popolazione ma, come dicevo prima, è banale e alle volte sconsigliata. Se utilizzi R ti consiglio alcune funzioni come mice e amelia, tuttavia può essere interessante anche l'utilizzo di algoritmi per l'imputazione dei valori missing, com ead esempio una regressione o un knn, mentre autoFill del pacchetto PolySegrate consente di sostituire i valori mancanti con il valore precedente. Per dati categoriali ti consiglio missForest.
  • Esperto
    Un software molto interessante per interagire con i dati mancanti è anche Amelia II, di cui ti posto il link:

    https://gking.harvard.edu/amelia

    Tale software, può essere utilizzato sia in combinazione con R, sia, a parte, con la sua interfaccia grafica AmeliaView!
    Amelia II: A Program for Missing Data
    Authors: James Honaker, Gary King, Matthew Blackwell Amelia II "multiply imputes" missing data in a single cross-section (such as a survey), from…
    • Grazie mille!
  • Ciao, il metodo migliore è...cancellare i casi con dati mancanti...ma è anche il metodo più oneroso.
    Tutti i metodi di imputazione introducono delle distorsioni più o meno gravi.
    Cerca di capire perchè quei dati sono mancanti (ad esempio perchè sono al di sotto della rivelabilità, oppure sono stati persi in maniera casuale, incapacità di discriminazione tra due analiti, ...) e sulla base di questo scegli un metodo appropriato.
    http://www.stat.columbia.edu/~gelman/arm/missing.pdf
    R ha diversi pacchetti che possono fare al caso tuo:
    https://cran.r-project.org/web/views/MissingData.html
    https://www.analyticsvidhya.com/blog/2016/03/tutorial-powerful-pack...
    http://www.stat.columbia.edu/%7Egelman/arm/missing.pdf
    • Esperto
      cancellare una tupla contenente un dato mancante può essere una perdita di informazione notevole.
    • Grazie! Il pdf che mi hai linkato mi ha chiarito le idee
This reply was deleted.