Informazioni

bayes e dintorni

Membri: 21
Attività più recente: 6 Ago 2015

Modello a variabili latenti

PlotLatR.pdf

Ciao, introduco in questa discussione un modello a variabili latenti.

 

Il contesto è il seguente.

Nella valutazione della 'soddisfazione della clientela', ci si affida ad alcuni indicatori interni diretti (come il n° e la tipologia dei contatti per reclamo) oppure indiretti (come il n° di 'abbandoni': in ambito bancario, ad es. chiusura dei c/c, riduzione della raccolta ecc.).

 

Gli eventi osservati sono però spesso limitati solo ad una parte dei clienti. Per quanto riguarda i reclami ad es., non tutti i clienti manifestano la loro insoddisfazione, e più in generale non tutti reagiscono in modo immediato e con azioni precise ad eventuali errori da parte dell'azienda.

Molti chiudono ogni rapporto dopo un 'accumulo' di esperienza senza essersi mai “manifestati” prima. Da qui, soprattutto nella prospettiva di anticipare gli eventi sfavorevoli, si ricava l'esigenza di stimare l'insoddisfazione nascosta di cui gli eventi osservati rappresentano solo la punta dell'iceberg.

 

L'ambito dei modelli a variabili latenti è molto vasto. Non avendo il tempo per una ricerca adeguata, mi sono affidato alla logica dei dati che avevo a disposizione, utilizzando poi la cornice bayesiana.

L'ipotesi fondamentale su cui si fonda il modello è che i dati osservati sono la manifestazione di una popolazione più vasta la cui dimensione va stimata.

 

I dati utilizzati per la stima sono i seguenti, tutti riferiti ad un "distretto" (struttura superiore alle filiali). La dimensione temporale è l’anno, con aggiornamenti successivi:

 

-Clienti attivi (N) al tempo T0 per distretto

-Totale reclami scritti o verbali.

-Riduzione raccolta

-Chiusura c/c

-Clienti persi.

 

I "Clienti persi" rappresenta la variabile dipendente, mentre le variabili latenti sono rappresentate dal n° di clienti insoddisfatti per distretto (indicati con l[i]). Il modello unisce questi due estremi attraverso una serie di equazioni che coinvolgono diverse "distribuzioni".

 

1) Gli "insoddisfatti latenti" provengono dal n° di clienti attivi (N) e possono essere rappresentati attraverso una binomiale

 

l[i] ~  dbin( p[i] , N[i])

 

2) Gli insoddisfatti "latenti" ‘prodotti’ in (1) possono essere pensati in relazione ai dati osservabili in questo modo (dbin sempre distr. binomiale):

 

2.1) Clienti che hanno chiuso almeno un c/ci: CC[i].

CC[i] ~  dbin( pcc[i] , l[i])

 

2.2) Clienti che hanno almeno un reclamo all'attivo: R[i].

R[i] ~  dbin( pr[i] , l[i])

 

2.3) Clienti che hanno ridotto la raccolta e relativa riduzione. Si tratta di un processo che viene descritto da due 'passi'

-Clienti  insoddisfatti latenti che hanno ridotto la raccolta (nridrac)

nridrac[i] ~  dbin(prac[i],l[i])

 

-Quota di riduzione raccolta spiegata dai clienti insoddisfatti selezionati nel primo passo + quelli  'soddisfatti'.

L'equazione è definita da:

 

riduzione_rac[i] <- ( nridrac[i]  *  qL[i] + (mydata[i,1] - l[i]) *  qN[i] ) * media_riduzione_raccolta

 

riduzione_osservata[i] ~  dnorm(riduzione_rac[i]], sigma[i])

 

I parametri qL e qN definiscono l'impatto sulla riduzione (rispettivamente dei soddisfatti e insoddisfatti).

La media_riduzione_raccolta è il valore medio di riduzione osservato per cliente

 

4) Clienti persi=CP[i]:

    CP[i] ~  dbin( pp[i] , l[i])

 

Le equazioni sono poco leggibili (immagino), ma il senso del modello è semplice: ogni variabile l[i] è all'interno di una serie di vincoli formato da dati osservati e a priori che definiscono la verosimiglianza del valore attraverso il metodo di Gibbs.

 

Dopo aver utilizzato Rjags per la stima, il risultato può essere visualizzato in questa serie di grafici. Sulle ascisse sono presenti i valori latenti (come percentuale rispetto ai clienti di partenza): tanto maggiore il valore, tanto più elevata la quota di insoddisfatti. Le correlazioni con quanto osservato sono in linea con le attese. Ad esempio nel primo grafico la percentuale dei clienti persi cresce con la % di insoddisfatti, e così via per c/c chiusi e reclami. Non considerate il terzo grafico perché non è corretto.

 

Quello che mi attendo nel corso del tempo è che il valore stimato, l[i], si approssimi, o sia almeno sempre più correlato al n° di clienti persi.

 

Se avete curiosità chiedete pure.

 

Forum di discussione

Confronto tra diverse a priori

Iniziata da renzo saviane 23 Giu 2015. 0 Risposte

Ciao a tutti, propongo una discussione sulla scelta delle priori in un semplice modello che comprende due variabili di tipo qualitativo: una fissa e l'altra casuale. L'implementazione è stata fatta…Continua

Spazio commenti

Commento

Devi essere membro di bayes e dintorni per aggiungere commenti!

Commento da renzo saviane su 28 Maggio 2015 a 16:24

Tra un celebro leso lavoro e l'altro (dico il mio), tanto per iniziare
vi invio qui una breve descrizione di un problema che ho recentemente affrontato, come approfondimento alle presentazioni precedenti.


Si tratta di un modello che valuta la performance degli operatori di un call center che risponde ai reclami della clientela. Trattandosi di reclami relativi a diversi 'prodotti finanziari', ogni tipologia richiede un diverso impegno da parte dell'operatore.
Il tentativo è quello di valutarne l'efficenza nel corso del tempo, tenendo conto delle variabili che definiscono lo sforzo richiesto da ogni reclamo

Il problema è definito da:

-Variabile dipendente y=0/1: reclamo aperto o chiuso

-Covariate (ad es. reclamo per usura, finanziario, pervenuto tramite avvocato ecc.):

-Operatori: descritti attraverso un effetto casuale. Rappresenta la parte di variabilità legata al soggetto. Quando l'effetto operatore = 0, il risultato è rappresentato dalla media. In caso contrario valori positivi indicano una maggiore efficienza (negativi,inefficienza).

Il modello utilizzato è quello di Poisson ad effetti fissi + random, con distribuzione a priori (distr. normale) sui parametri, (medie/e variabilità), ottenuti dalla stima di max veros. dell'anno precedente.

La stima avviene attraverso il pacchetto MCMCglmm di R: si tratta di una procedura che applica i metodi montecarlo ai modelli lineari generalizzati.

Un quadro di sintesi lo trovate nella tabella xls per gli effetti fissi dove:
Anno precedente: stime ML 2014
Confronto.xlsxOra ML: modello stimato con la massima verosimiglianza sui dati del 2015
Alfa Bayes (e relativo intervallo di confidenza), da procedura MCMC
delta=differenza tra i coefficienti ML attuali e bayes
* = se l'intevallo di confidenza bayes non comprende il valore ML stimato su 2015

----

Le stime bayesiane, in particolare per i valori marcati con un '*', si collocano tra i due valori di  2014/2015 (ottenuti con ML), come effetto delle informazioni a priori.

Quello che  volevo rimarcare è questo: gli assunti di rappresentatività del campione della statistica classica (e le altre numerose e spesso inverificabili ipotesi)
sono poco credibili. Il paradigma più forte della stat. classica è il principio del campionamento ripetuto, in cui la finestra dei dati è assunta come campione rappresentativo di un universo immobile. Vi rimando ad un post di Duccio Schiavon sui campionamenti via telefono per capire quanto sia infondata la cosa (gli utenti contattabili con telefono fisso sono sempre meno, le realtà sociali sempre più mobili, ecc. ecc.).

Insomma se non si estraggono biglie da un'urna è un po' dura ottenere risultati affidabili.

 Bayes non ha tante pretese: il campione è solo una parte della realtà e la sua importanza
si integra con le distribuzioni a priori che possono essere utilizzate per testare la robusteza dei risultati.

Se avete dati, problemi e dubbi, tecnici o di impostazione, tirateli fuori dai cassetti che incominciamo ad affrontarli: le elezioni sono vicine : )

Un saluto.Confronto.xlsx

 
 
 

Social

 

Gruppi

© 2017   Creato da Duccio Schiavon.   Tecnologia

Badge  |  Segnala un problema  |  Politica sulla privacy  |  Termini del servizio