Buonasera a tutti,

mi è stato chiesto di analizzare i dati di alcuni questionari compilati da medici di base. Le domande del questionario richiedevano di riportare le percentuali dei pazienti per varie malattie. Una volta raccolti i dati ho iniziato con l'analisi descrittiva. Il nostro scopo non è quello di usare la statistica inferenziale ma solo semplici metodi descrittivi. Quindi da medie+-SD dovrei produrre dei grafici: istogrammi e torte. Dopodiché ho voluto provare la normalità delle distribuzioni dei dati. E qui ho constatato che nessun campione ha una distribuzione normale. Quindi sarebbe giusto "descrivere" i dati con mediana e percentili (25-75). In questo caso è giusto riportare i risultati di mediana e percentuali (quindi rappresentare i dati con boxplots) oppure delle semplici medie visto che parliamo solo di analisi descrittive? Inoltre ho riscontrato che alcuni dati relativi alla mediana ed al primo e terzo quartile sono tutti nulli, quindi i dati sono o nel primo quartile o nell'ultimo. Come si procede in questi casi? 

Vi ringrazio tanto in anticipo per l'aiuto

Visualizzazioni: 127

Rispondi

Risposte a questa discussione

Ciao Michele, rispondere al tuo quesito non è semplice. Infatti, soprattutto se si parla di statistica descrittiva, più che in termini di giusto/sbagliato io ragionerei in termini di utilità informativa di un'analisi e quasi mai esistono regole assolute.

Tu chedi:

è giusto riportare i risultati di mediana e percentuali (quindi rappresentare i dati con boxplots) oppure delle semplici medie visto che parliamo solo di analisi descrittive?

E perché scusa, mediana e boxplot che cosa sono, se non analisi descrittive? Perché dovrebbe essere sbagliato riportarli? Penso che lo scopo di un'elaborazione statistica sia estrarre informazione dai dati, sintetizzando. Il tuo scopo è descrivere, quindi riporta tutto ciò che ritieni opportuno.

Una cosa: hai fatto dei grafici per visualizzare le distribuzioni? Un grafico con le giuste informazioni dice molto, molto di più sulla distribuzione dei dati di qualsiasi test di normalità... e ti aiuta anche con casi particolari come quelli che descrivi.

Ciao Davide,

innanzitutto grazie mille della risposta. 

Ho fatto lo stesso identico ragionamento al medico per cui sto analizzando i dati. Mi ha guardato storto quando ho presentato i risultati, a suo parere, "in modo eterogeneo" (non tutti con medie o mediane). Nel senso che, i dati relativi all'età dei pazienti li ho rappresentati con un box plot, perché a me interessa di più capire come sono distribuiti i dati più che sapere quale campione abbia l'età media più alta; mentre i dati relativi all'assunzione dei differenti farmaci (per la stessa malattia) da parte dei pazienti con degli istogrammi, perché (sempre a mio parere) non mi interessa capire quanti dei dati capitano nel primo e terzo quartile ma quale farmaco "va più di moda" (nota critica).

Secondo Voi posso quindi ribadire questo concetto?

Ottima l'idea di presentare le distribuzioni, lo faccio subito. 

 

Caro Michele, ti suggerisco il seguente approccio, molto classico in epidemiologia clinica (mima la classica table 1 main patients characteristics):

- var continue: mediana(IQR range interquartile) ed istogramma

- var categoriche: frequenza relativa/assoluta e bar plot

Valuta l'utilità di eventuali stat descrittive bivariate (ad es gender by age), anche in assenza di analisi inferenziali

Cordialmente Roberto

Buonasera Roberto,

grazie mille per i consigli. Ne sto facendo buon uso. 

Saluti

Michele

Tuve un problema similar, sitio web útil

RSS

Social

 

Gruppi

© 2018   Creato da Duccio Schiavon.   Tecnologia

Badge  |  Segnala un problema  |  Politica sulla privacy  |  Termini del servizio