17 Ottobre 2009

Blog: Statistica con R

Esercizi di statistica descrittiva e di verifica delle ipotesi risolti e commentati con R. Questo il sottotitolo di un blog scritto in italiano ed esaustivo in ognuna delle spiegazioni pubblicate sull’utilizzo di R.
L’Indice degli esercizi può risultare molto utile soprattutto per gli utenti meno esperti che desiderano ottenere immediatamente un aiuto. Estremamente utili sono i due manuali segnalati nella sezione link:
Formulario di statistica con R, realizzato da Fabio Frascati, ed
Esercitazioni di statistica biomedica, realizzato da Matteo Dell’Omodarme.

Postato il 17/10/2009 11.14.55 in | Commenti (5) |
Scrivi |

8 Luglio 2009

La Macchina di Galton

Quincunx (Galton box, bean machine) to demonstrate the normal distribution from Yihui Xie on Vimeo.

Un giorno di questi compilerò un elenco dettagliato di tutti i blog che più mi piacciono, e i cui autori meritano a mio avviso un grande risalto per come contribuiscono, anche se in minima parte, ad una condivisione globale della conoscenza statistica.
Dopo One R Tip A Day, voglio segnalare Keep on Fighting!, curato dal giovane e talentuoso cinese Yihui Xie, e dedicato principalmente alla rappresentazione grafica interattiva creata con R.
Approfitto quindi per farvi vedere questa deliziosa Macchina di Galton, realizzata da Xie, per la dimostrazione della distribuzione normale, che potete trovare nel blog assieme a tante altre giustissime cose.

Postato il 08/07/2009 15.30.28 in | Commenti (0) |
Scrivi |

7 Luglio 2009

RSuggerimento



Paolo Sonego cura un bellissimo blog, interamente in inglese ed interamente dedicato alla programmazione in R, attraverso il quale (quasi) ogni giorno propone un suggerimento utile all’uso di R. Se non è lui stesso a proporre codice di sua creazione, vi è sempre almeno un collegamento ad una risorsa esterna.
Vivamente consigliato a tutti coloro che lavorano quotidianamente con R, e che desiderano disporre di una risorsa in più per aggiungere valore al proprio lavoro.

Postato il 07/07/2009 18.49.41 in | Commenti (0) |
Scrivi |

10 Giugno 2009

I 4 progetti su R selezionati per il Google Summer of Code 2009



Come ogni anno, in vista del Google Summer of Code organizzato dall’R Foundation for Statistical Computing in collaborazione con Google, sono stati selezionati 4 progetti di sviluppo che riceveranno un lauto finanziamento per il loro lavoro di sviluppo:

- Implementazione dell’algoritmo CRUISE. Lo scopo del progetto è l’implementazione di metodi di partizionamento ricorsivo (“alberi”) non disponibili in R al momento.
- Cranlab: lo scopo del progetto è (1) l’implementazione di metriche per il monitoraggio dei pacchetti di R e (2) la creazione di un monitor per metriche applicate su software ospitati in CRAN.
- Sviluppo di crantastic.org: portale già esistente che si dovrà occupare di divulgare informazioni sui pacchetti di R, documentazioni e pubblicazioni, con feedback da parte di tutti i membri della comunità (i così detti useR).
- RQuantLib: progetto per la creazione di un ponte tra R e QuantLib. L’obiettivo del progetto è (1) estendere il codice di QuantLib attualmente disponibile ad R aggiungendo funzioni wrapper ad RQuantLib, e (2) fornire funzionalità aggiuntive a QuantLib basate su quanto già esistente nei numerosi pacchetti di R.

Per maggiori informazioni si visiti http://www.r-project.org/soc09/index.html

Postato il 10/06/2009 17.40.17 in | Commenti (2) |
Scrivi |

9 Giugno 2009

Nasce il Giornale di R



La newsletter di r-project si trasforma e diviene un vero e proprio giornale. La sua struttura appare molto simile a quella della vecchia newsletter soprattutto per quanto riguarda la presentazione dei nuovi pacchetti sviluppati, ciò nonostante la maggiore ricchezza dei contenuti è principalmente dovuta alla presenza di:
- notizie riguardanti aggiornamenti e modifiche dei pacchetti già esistenti
- avvisi circa la disponibilità di nuovo materiale, manuali, distribuzione di codici binari su CRAN
- comunicazione di eventi locali ed internazionali riguardanti R
- relazioni circa i contenuti di conferenze e seminari passati.
Nel primo numero, oltre ad un’ampia presentazione del nuovo Giornale di R, è presente un capitolo molto interessante intitolato Facets of R e curato da John Chambers, in cui vengono descritte le linee guida per lo sviluppo futuro di R. Chambers parla di come dovrà diventare R secondo quanto accordato tra tutti i principali componenti della comunità.
Un altro capitolo è dedicato alle modalità di sviluppo del software attraverso R-Forge (http://r-forge.r-project.org/).
Molto simpatica è la sezione, intitolata Disegnare Digrammi con R, in cui Paul Murrell spiega come tracciare frecce, semplici riquadri e rimandi per ottenere diagrammi di qualità.
Con la presentazione del pacchetto hwriter viene spiegato come gestire i formati e gli stili di stringhe testuali e numeriche; vengono tra le altre descritte molte delle caratteristiche funzionali del pacchetto PMML, sistema per la gestione del formato aperto standard in predictive model markup language per il deployment e la condivisione di modelli predittivi.
E molto altro ancora.

Per maggiori informazioni si visiti la sezione dedicata http://journal.r-project.org/

Postato il 09/06/2009 11.01.32 in | Commenti (0) |
Scrivi |

7 Maggio 2009

Il magico mondo di ggplot2

Lo scorso 28 aprile ho parlato degli ultimi dati pubblicati dall’Istat riguardanti il consumo di alcol tra i giovani. Per l’occasione ho creato una visualizzazione, utilizzando STATISTICA per la creazione dell’istogramma e l’elaborazione dei dati, ed infine Fireworks per curare la parte meramente estetica della visualizzazione.
Il lavoro mi è costato fatica e tempo. Tra lavorazione dei vari livelli, aggiustamento delle scale, posizionamento delle barre impilate, credo di avere impiegato 50 minuti.



Conosco già da tempo le potenzialità del pacchetto ggplot2, ma in realtà non pensavo potessi tramite di esso rappresentare i miei dati in questa maniera. Il problema consisteva nel fatto di disporre di due serie di valori (tipo di alcol: “Birra e/o vino” e “Altri alcolici”) da impilare e classificare in base a due fattori: classe d’età e anno (1998 e 2008).



La relativa complessità del piano mi aveva scoraggiato e quindi avevo proceduto nella maniera apparentemente meno pratica (approccio artigianale).
Poi ho dedicato un po’ di tempo all’esplorazione del magico mondo di ggplot2, bene illustrato in queste pagine da Hadley Wickam, e dopo un po’ di sperimentazioni ho ottenuto il grafico che desideravo:



Il risultato finale in termini di minuti spesi seguendo i due differenti approcci è chiaro:

2 vs 50 a favore di ggplot rispetto all’approccio artigianale

Potete riprodurre la visualizzazione eseguendo il seguente codice:

library (ggplot2)

mydata <- read.csv ("http://www.stat-project.com/public/alcol3.csv")

p <- ggplot(mydata, aes(factor(anno), y=count, fill=tipo_alcol)) +
geom_bar() + facet_grid(. ~ eta)

p + scale_x_discrete("anno") + scale_y_continuous("percentuale") +
scale_fill_discrete("tipo di alcol")


Postato il 07/05/2009 19.46.09 in | Commenti (2) |
Scrivi |

4 Maggio 2009

Survey Analysis con R



Per tutti coloro che desiderano utilizzare R per scopi di Survey Analysis, segnalo con molto piacere questa preziosissima risorsa su web messa a disposizione da Thomas Lumley della University of Washington.
Si tratta di una guida completa all’utilizzo del pacchetto survey di R, noto per fornire il più ampio numero di funzionalità in R per l’analisi dei dati relativi a indagini complesse.

Mi raccomando di salvarvi le pagine html prima che, come accade per molto materiale su web, questo venga oscurato o non più reso disponibile per una consultazione.

Postato il 04/05/2009 18.08.56 in | Commenti (0) |
Scrivi |

20 Aprile 2009

Cerchi lavoro? Allora è bene che impari ad usare R

Oggi vi segnalo qualcosa di moooooolto sfizioso.
Dice è tra i più celebri portali internet dedicati all’offerta e alla domanda di lavoro negli US. È un portale che offre un sacco di servizi utilissimi specie per chi cerca lavoro, tra i quali spicca Dice TV, sezione in cui vengono raccolti una serie di filmati dedicati a chi desidera ricevere consigli illuminanti su come arricchire le proprie conoscenze professionali.
In questo filmato una “provocantissima” presentatrice vi dice perché è importante imparare ad usare R per tutti coloro che desiderano venire impiegati nel settore del business analytics, della ricerca e del marketing. Vi dice perché è vantaggioso imparare ad usarlo, perché è così popolare, quali opportunità offre in termini di conoscenze professionali richieste.



Se ancora non siete convinti della bontà di R, provate a resistere a questa inesauribile serie di ammiccamenti

Per maggiori informazioni visitate http://career-resources.dice.com/articles/content/entry/is_there_an_r_in1

Postato il 20/04/2009 23.09.48 in | Commenti (0) |
Scrivi |

17 Aprile 2009

R Inferno



Patrick Burns ha scritto questo spassoso documento dedicato alla programmazione in R parodiando chiaramente l’Inferno di Dante.
Se ciò che volete è imparare a programmare in R evitandovi da subito d’incappare negli errori di programmazione più comuni in questo tipo d’ambiente, leggete The R Inferno.

Postato il 17/04/2009 17.31.47 in | Commenti (0) |
Scrivi |

26 Febbraio 2009

Come R viene utilizzato da Google e Facebook



Dopo che la scorsa settimana si è tenuto a San Francisco il Predictive Analytics World, una delle maggiori conferenze sul data mining e l’analisi predittiva al mondo, adesso stanno trapelando una serie di indiscrezioni su alcuni dei più attesi interventi.
Da segnalare vi è il resoconto redatto da Michael E. Driscoll, che ha avuto l’arduo compito di moderare la discussione forse più interessante della conferenza, dal titolo “The R and Science of Predictive Analytics”.
Tra coloro che sono intervenuti in questa discussione vi sono stati Bo Cowgill e Itamar Rosenn, rispettivamente responsabili analisti di Google e di Facebook, che hanno spiegato come R viene utilizzato presso le rispettive aziende.

Bo Cowgill ha spiegato che nel suo gruppo R viene utilizzato in semplici postazioni desktop, ed il suo principale utilizzo consiste in: (i) estrarre i dati da qualche tool di archiviazione esterno, (ii) caricarli in R, (iii) eseguire analisi e modellazioni in R, (iv) implementare i modelli risultanti in Python od in C++ per poterli utilizzare in ambienti di produzione.

Più interessante sembra essere stato l’intervento di Itamar Rosenn, che ha spiegato come l’obiettivo principale del suo gruppo di analisti è (i) prevedere quali fattori determinano l’abbandono o meno di un utente di Facebook, e (ii) se questi rimane quali sono i dati che consentono di stabilire quanto sarà “attivo” nei tre mesi successivi all’iscrizione.
Per rispondere alla prima domanda, il team di Itamar ha utilizzato procedure di partizionamento ricorsivo (attraverso il pacchetto rpart) concludendo che i due fattori maggiormente predittivi per una permanenza o meno su FB sono: (i) l’aver aperto più di una sessione quale nuovo utente, e (ii) inserito o meno le informazioni di base del profilo.
Per il secondo interrogativo, è stato adattato ai dati un modello logistico attraverso un approccio con “least angle regression” (pacchetto lars) che ha permesso loro di verificare come il grado di attività nei tre mesi successivi all’iscrizione siano determinato da: (i) quanto spesso un utente è stato “cercato” dagli altri, (ii) la frequenza di utilizzo di applicativi esterni, e (iii) dal grado di “recettività” dell’utente, ovvero sia dal modo in cui questi ha percepito da subito il sito.

Per maggiori informazioni si visiti http://dataspora.com/blog/predictive-analytics-using-r/

Postato il 26/02/2009 16.45.51 in | Commenti (0) |
Scrivi |

29 Gennaio 2009

Un Blog dedicato a REvolution

Altra segnalazione di rilievo quella di quest’oggi. È trascorso poco più di un mese da quando annunciammo la nascita del progetto REvolution, ovvero sia dello sviluppo e della distribuzione di una versione commerciale ed orientata alle imprese di R. Per questo i responsabili dell’iniziativa hanno pensato bene di pubblicare un blog interamente dedicato, in cui non solo vengono illustrati esempi di utilizzo ma anche modalità d’impiego nelle differenti applicazioni aziendali.
Molto interessante a questo proposito la guida all’analisi dei trial clinici secondo le normative imposte dall’FDA.

L’ultimo annuncio in ordine di tempo riguarda la tanto sospirata disponibilità del download gratuito della versione base di REvolution R.

Postato il 29/01/2009 12.00.33 in | Commenti (0) |
Scrivi |

16 Gennaio 2009

Rattle Versione 2.4.0 – Data mining open source

Pare che l’articolo pubblicato lo scorso 6 gennaio dal New York Times e dedicato ad R abbia sollevato un vero e proprio vespaio tra gli analisti e gli statistici di mezzo mondo (qui potete trovare un esempio di articolo pubblicato in questo caso su SmartDataCollective).
Ciò che sembra avere infastidito alcuni è l’approccio adottato dal giornalista, il quale evidentemente per tessere le lodi di R ha considerato SAS quale principale suo concorrente commerciale, evidenziandone (velatamente) la perdita di capacità di appeal anche presso le realtà analitiche più avanzate.
Indipendentemente dalla concreta evidenza di tali considerazioni, ne approfittiamo per segnalare l’avvenuta release della nuova versione di Rattle, piattaforma open source basata su R e dedicata al data mining.
Tra i diversi aggiornamenti, occorre segnalare la riparazione avvenuta di molti bachi, l’integrazione di nuovi supporti per l’interfacciamento a formati di dati esterni (CSV, sorgenti ODBC), l’aggiunta di schede di Test e di Trasformazioni, l’integrazione di un supporto sperimentale per la generazione automatica di report.
Inoltre da sottolineare che con la nuova versione sono state implementate le curve ROC e le CostCurve, così come nuovi strumenti per l’esplorazione dei dati come GGobi e PlayWith. Implementata inoltre la funzionalità (fondamentale!) per l’esportazione di codice PMML per il deployment dei modello predittivi.

Postato il 16/01/2009 17.57.58 in | Commenti (0) |
Scrivi |

8 Gennaio 2009

Il New York Times pubblica un articolo interamente dedicato ad R

Ho già più volte sottolineato come R sia una delle realizzazioni open source più apprezzabili in termini di numero di contributi in rapporto alla sua reale base utenti.
Per modalità di utilizzo/sviluppo ed in quanto a condivisione della conoscenza, R supera di gran lunga molti altri progetti open source di più vasta scala, vedi Sistemi Operativi, Strumenti Office, Tool grafici eccetera eccetera.
Un ingegnere, un ricercatore, un analista finanziario, un medico possono scoprire una nuova procedura per l’analisi di un fenomeno qualunque, e quindi adoperarsi per scrivere un pacchetto in R da condividere immediatamente col mondo intero. Fantastico no?
La condivisione della conoscenza non si realizza quindi solo attraverso la distribuzione di una mera funzionalità, ma anche attraverso la condivisione di un contesto applicativo che può essere indagato da tutti coloro che valutino come significativo l’apporto di ogni sviluppatore/utente, con conseguenze pratiche sulla ricerca scientifica di settore.
Per questo, e per il fatto che per molti si sta entrando in una vera e propria età dell’oro per quanto riguarda l’analisi dei dati, lo scorso 6 Gennaio il New York Times ha pubblicato un articolo interamente dedicato ad R (segnalazione raccolta dal Forum della SIS, Società Italiana Statistica).

L’avvenimento è certamente da considerarsi senza precedenti, nel settore dell’informatica applicata alla statistica, ciò nonostante il fatto che aziende come Google, Pfizer, Merck, ecc., indichino da tempo R come uno dei tool che maggiormente contribuiscono al rispettivo successo di business, non fa che alimentare la curiosità dei media più popolari nei confronti di simili realtà.

Postato il 08/01/2009 17.06.59 in | Commenti (0) |
Scrivi |

17 Dicembre 2008

REvolution R: La nuova frontiera del calcolo aziendale con R



REvolution R è una piattaforma basata su una distribuzione migliorata di R e gratuitamente disponibile per il download. In REvolution R vengono implementate solo procedure di R soggette a numerose revisioni e riparate dai bachi critici: si può pensare quindi ad esso come una versione ottimizzata di R.
L’aspetto interessante è la disponibilità di una versione commerciale rivolta alle aziende, dal nome di REvolution Enterprise, le cui principali caratteristiche sono:
1. Contratto di supporto
2. ParallelR, che estende REvolution R per essere eseguito su workstation con multiprocessore o su computer cluster. Questa tecnologia consentirebbe di accelerare le capacità di calcolo di R anche in presenza di strutture informatiche complesse.
3. Compatibilità con Windows a 64 bit
Non è molto chiaro come siano gestite le licenze GNU sotto cui sono distribuiti i pacchetti di R lì dove questi vengano distribuiti integralmente a tale prodotto commerciale, ciò nonostante è indubbio che si tratti di un passo importante verso l’introduzione di R anche in ambito aziendale.

Postato il 17/12/2008 19.21.35 in | Commenti (0) |
Scrivi |

18 Novembre 2008

Pacchetto Animation per R: Lo strumento ideale per animare le tue statistiche e i tuoi grafici



Avevamo già accennato ad animation in occasione dello scorso post del 5 novembre, dedicato alla pubblicazione dell’ultima Newsletter di r-project. Adesso possiamo fornirvi maggiori dettagli, visto e considerato che è disponibile un sito web molto bene realizzato, attraverso il quale è possibile raccogliere tutte le informazioni necessarie per un suo utilizzo. AniWiki, curato dallo stesso sviluppatore del pacchetto - ovvero sia Yihui Xie -, ha il pregio di essere suddiviso in sezioni ognuna delle quali contenente il codice di utilizzo di animation nonché un esempio dell’animazione ottenibile.
Nell’immagine precedente potete ad esempio osservare un’istantanea dell’animazione realizzata per illustrare il funzionamento della Legge dei Grandi Numeri.

Molto utile per scopi didattici.

Postato il 18/11/2008 10.10.08 in | Commenti (0) |
Scrivi |

5 Novembre 2008

R newsletter Ottobre 2008



In apertura dell’ultima newsletter pubblicata su r-project John Fox esalta la rapida espansione del progetto R illustrando con un grafico la crescita esponenziale del numero di pacchetti di R nel tempo (Fox ci tiene a precisare che la scala dell’asse verticale è logaritmica!).
Tra i pacchetti le cui funzionalità sono qui illustrate vi è bipartite, pacchetto per l’esame delle interazioni tra specie nelle comunità ecologiche. Ionnis Kosmidis spiega come usare il pacchetto profileModel per l’esplorazione delle superfici di verosimiglianza e la costruzione d’intervalli di confidenza per i parametri di modelli adattati tramite procedure di massima verosimiglianza. Ingo Feinerer illustra le caratteristiche del pacchetto tm (“text-mining”), sviluppato per l’analisi dei dati testuali. Xie e Xiaoyne dimostrano la costruzione di animazioni statistiche in R tramite l’impiego del pacchetto animation (moooooolto interessante!). Paul Murrel illustra le caratteristiche del pacchetto compare, usato per localizzare similarità e differenze tra oggetti non-identici. Allignol, Beyersmann e Shumacher descrivono il pacchetto mvna per l’utilizzo dello stimatore Nelson-Aalen nell’analisi dei rischi cumulati di transizione nei modelli multi-stato, e molto altro ancora.
Fox ricorda inoltre l’annuncio già fatto in altri sedi a proposito della prossima conferenza mondiale su R, useR! 2009.

Postato il 05/11/2008 16.15.55 in | Commenti (0) |
Scrivi |

2 Ottobre 2008

Michele De Meo – Statistica, R, Database, Excel, Access

Ho scoperto un blog, tutto italianissimo, di estremo interesse per chi desidera lavorare con R in ambiente Microsoft Office. Dalla breve premessa dell’autore, leggo di un percorso professionale che in pochi hanno intrapreso in Italia dopo la laurea in Scienze Statistiche, ma che per chi è interessato all’informatica credo riservi notevoli soddisfazioni professionali e di ricerca.
Il blog offre numerosi spunti per riuscire a coniugare il meglio dell’open source ed il meglio del software commerciale a fini analitici.

Per maggiori informazioni visitate http://micheledemeo.blogspot.com/

Postato il 02/10/2008 17.24.29 in | Commenti (0) |
Scrivi |

25 Settembre 2008

Elezioni Presidenziali US 2008, prove tecniche di previsione



Drew Linzer, professore presso il Dipartimento di Scienze Politiche della Emory University (Atlanta, GA, USA), ha modellato i risultati elettorali per Stato US attraverso tecniche di modellazione Bayesiane con l’obiettivo di prevedere il risultato delle prossime elezioni presidenziali statunitensi.
Il modello è disponibile in codice “.R” così come i dati elettorali per Stato in formato CSV ricavati da Pollster.com

I risultati sono disponibili a questa pagina: http://userwww.service.emory.edu/~dlinzer/pres08/index.html

Postato il 25/09/2008 17.48.45 in | Commenti (0) |
Scrivi |

24 Settembre 2008

Data Mining con R



Se dovessi consigliarvi delle risorse su web da cui prendere spunto per iniziare a fare del data mining con R, oltre naturalmente a indicarvi per la teoria Analisi dei Dati e Data Mining di Adelchi Azzalini, vi consiglierei il manuale dal titolo Data Mining with R realizzato dal professor Luis Torgo (professore presso la Facoltà di Economia dell’Università di Porto) e scaricabile da questa pagina.
Si tratta di un manuale di 125 pagine in cui viene illustrato passo-per-passo come elaborare due tipici caso-studio, corredato di esempi e di tutti gli script necessari per eseguire gli algoritmi più adatti a seconda della natura delle variabili da analizzare.

DS

Postato il 24/09/2008 18.17.22 in | Commenti (0) |
Scrivi |

3 Settembre 2008

useR! 2009



Non appena conclusasi useR! 2008, l’edizione dell’anno prossimo della nota Conferenza mondiale degli Utilizzatori di R ha già uno spazio tutto suo su web.
Diciamo subito che la Conferenza si terrà a Rennes, nota capitale della Bretagna, ed in particolare sarà l’Agrocampus di Rennes, centro specializzato in ricerca in campo agronomico, ad ospitare l’evento.
Esiste già una prima lista d’interventi autorevoli, tra i quali quello di Jerome H. Friedman, noto inventore dell’analisi di regressione MARS, e quello di Trevor Hastie, altrettanto noto ideatore del modello statistico GAM.
Insomma, avete capito…. Il programma dell’anno prossimo promette di essere all’altezza di quello degli anni scorsi se non più ricco e sorprendente.

Postato il 03/09/2008 16.06.16 in | Commenti (0) |
Scrivi |

25 Luglio 2008

Inference for R: Integrazione perfetta tra R e gli strumenti di Microsoft Office



Se disponete di Microsoft Office e desiderate risolvere con pochi clic tutte le principali difficoltà nell’utilizzo di R (dalla visualizzazione/modifica agevole del file dati alla raccolta strutturata di output in contenitori unici, eccetera eccetera), Inference for R potrebbe fare per voi.
Si tratta di una suite di prodotti, ognuno specifico per il particolare strumento di Office che si desidera utilizzare quale “contenitore organizzativo” per R (Excel, Word, Visual Studio, eccetera).
Sul sito dedicato non sembra essere indicato il prezzo delle soluzioni commercializzate.

Postato il 25/07/2008 17.25.56 in | Commenti (0) |
Scrivi |

16 Luglio 2008

Programma di useR! 2008



Come in molti di voi già sapranno i prossimi 12, 13 e 14 Agosto è in programma a Dortmund la Conferenza Mondiale su R. Per chi è interessato a saperne di più sui contenuti, si prega di visitare la pagina:
http://www.statistik.uni-dortmund.de/useR-2008/program.html
Il programma della conferenza prevede l’intervento di numerosi partecipanti. I primi a parlare saranno naturalmente i mai troppo lodati John Fox e Kurt Hornik, dopodiché, a seguire vi saranno tre sezioni parallele (chiamate Kaleidoscopes) che dureranno fino al termine della mattinata. Nel pomeriggio saranno organizzati fino a 6 focus contemporanei ognuno dedicato ad un argomento diverso (Marketing and Business Analytics, Reporting, Scienze Ambientali, Analisi delle Reti, ecc.).
Lo schema di ripeterà in tutti i tre giorni di conferenza.
Naturalmente consigliamo a tutti gli eventuali partecipanti di non perdere assolutamente l’intervento di Andrew Gelman su “Bayesian Generalized Linear Models and an Appropriate Default Prior”

Tutti coloro che sono interessati sono invitati ad utilizzare questo blog per darsi appuntamento a Dortmund, per incontrarsi e per organizzarsi.

Postato il 16/07/2008 18.24.04 in | Commenti (0) |
Scrivi |

28 Giugno 2008

Quick-R: Guida rapida ad R dedicata agli utenti di software commerciali



Se siete da sempre utenti di software statistici commerciali/generalisti e desiderate imparare a conoscere l’ambiente di R senza troppa fatica e grazie a pochi utili suggerimenti mirati, questa è la guida che fa per voi.
Quick-R è un portale semplice in cui sono inserite una serie di sezioni riguardanti le operazioni di massimo interesse per chiunque non abbia una grande conoscenza di R e desidera approcciarvi. Si possono trovare sezioni dedicate ad esempio all’Input di dati, alle Statistiche di Base, alle Statistiche Avanzate, ai Grafici di Base. Ognuna di queste sezioni è poi suddivisa in un insieme di sottocategorie altrettanto chiare e d’interesse generale.
Vi si può trovare anche una sezione riguardante l’importazione di dati da SPSS, SAS e Stata, ma che in sostanza potrebbe risultare utile anche agli utilizzatori di altri software commerciali più o meno noti.

In sostanza si tratta di un vero e proprio “R for Dummies”, da navigare e gustare anche se utenti esperti di R, in quanto la sua chiarezza è la sua praticità sono tali da renderlo un “must” per qualunque analista con un minimo di senso pratico. Apprezzabile la spiegazione data da Robert I. Kabacoff, curatore del progetto:
Ho creato Quick-R per una semplice ragione. Volevo imparare ad utilizzare R ed io nel profondo mi sento un insegnante. Il modo più semplice per me d’imparare qualcosa è quindi d’insegnarlo.

Postato il 28/06/2008 9.58.20 in | Commenti (1) |
Scrivi |

3 Giugno 2008

R: Newsletter Maggio 2008

Primo appuntamento dell’anno con le newsletter pubblicate su r-project. A curarla John Fox in persona, uno dei Re Mida del progetto R e responsabile della pubblicazione della quasi totalità del materiale divulgativo sull’argomento.
La pubblicazione di questa newsletter segue di poco la release della versione 2.7.0 di R, che include una serie di migliorie, soprattutto dal punto di vista degli strumenti grafici. In particolare Gregor Gorjanc spiega come utilizzare Sweave con LYX, front-end di LATEX; Jeff Enos introduce il pacchetto tradeCosts, attraverso il quale vengono implementati in R una serie di funzionalità di calcolo e grafiche per la rappresentazione delle transazioni in security.
Per quanto riguarda settori non esclusivamente legati alla visualizzazione grafica dei dati, Hormuzd Katki e Steven Mark descrivono il pacchetto NestedCohort per l’adattamento di modelli di sopravvivenza standard, come il modello di Cox, allorquando alcune informazioni nelle covariate sono mancanti. Vito Muggeo presenta il pacchetto segmented per l’adattamento di modelli di regressione lineare di tipo piecewise. Cathy Chen illustra come utilizzare il pacchetto BAYSTAR per adattare modelli auto regressivi con soglia a due regimi (TAR) usando i metodi Markov-chain Monte-Carlo.
In questo numero vi potrete trovare anche una colonna intitolata Help Desk, curata dallo stesso John Fox e da Uwe Ligges, in cui vi sono alcuni suggerimenti su come ottimizzare il funzionamento di R in termini di velocità di elaborazione.

Postato il 03/06/2008 9.46.01 in | Commenti (0) |
Scrivi |

15 Aprile 2008

Grafici di Google con R



Proseguiamo con la nostra carrellata sulle diverse possibilità d’implementazione delle API grafiche di Google, e passiamo ad illustrarvi come utilizzare queste ultime per rappresentare alcuni dei possibili risultati ottenuti con R.
Dal Blog di Scienze Statistiche e Sociali dell’Università di Harvard ci viene suggerito d’importare la seguente sorgente:

> source("http://people.fas.harvard.edu/~aeggers/code/googleplot.r")

Per poi produrre un grafico in R secondo l’istruzione

> plot(1:9, c(4,2,4,3,6,4,7,8,5), cex = 1:9, xlim = c(0, 10), ylim = c(1,10))

(vedi imagine sopra)
Dopodiché utilizziamo la sintassi prevista dalla funzione googleplot:

> googleplot(1:9, c(4,2,4,3,6,4,7,8,5), cex = 1:9, xlim = c(0, 10), ylim = c(1,10))

Ciò che verrà prodotta sarà una lunga stringa URL virgolettata:

http://chart.apis.google.com/chart?cht=s&chd=s:GMSYekqw2,SGSMeSkqY,GNUbhov29&chxt=x,y&chxl=0:|0|2|5|7|10|1:|1|3|5|7|10&chs=250x200

Se inserite questa stringa (indirizzo internet) sul vostro browser web ciò che otterrete è il seguente grafico:



Fate attenzione alle note inserite nel post dall’autore, il quale – nonostante riconosca l’indubbia efficacia visiva di questo grafico - si lamenta della mancata flessibilità di alcune delle opzioni al momento disponibili nelle API.

Postato il 15/04/2008 10.56.13 in | Commenti (0) |
Scrivi |

9 Aprile 2008

FDA ed R: Una convivenza possibile



L’introduzione da parte dell’FDA di norme di regolamentazione dell’ambiente IT ha scatenato molte critiche soprattutto da parte della comunità di sviluppatori open source. La mancanza di chiarezza di certi punti, contenuti ad esempio nella normalità 21 CFR Part 11, ha causato il malessere giustificato di chi da tempo si batte per introdurre in molti ambienti strumenti di analisi open source assolutamente comparabili in termini di performance analitica ad alcuni loro omologhi commerciali.
Mat Soukup, Ph. D. presso il dipartimento di Biostatistica dell’Università della Virginia e revisore statistico proprio presso la US Food and Drug Administration interviene con un interessante documento proprio per fare chiarezza su questo punto, e lo fa iniziando nel modo più efficace possibile:
I documenti guida dell’FDA non stabiliscono responsabilità legali vincolanti. Tali documenti descrivono solo il pensiero corrente dell’Agenzia a proposito di specifici argomenti e come tali devono essere considerati come insieme di raccomandazioni, e non come specifiche regolamentazioni o requisiti statuali. L’uso dell’espressione condizionale si raccomanda da parte dell’Agenzia significa che al lettore viene semplicemente suggerito di seguire una strada, senza alcun obbligo da parte sua.
In seguito il documento aiuta a considerare punto per punto tutti i diversi aspetti della normativa, soprattutto per quanto riguarda il campo delle Clinical Trials in ambito biostatistico e di ricerca medica.

Prezioso per gli utenti di R.

Postato il 09/04/2008 14.52.36 in | Commenti (0) |
Scrivi |

20 Dicembre 2007

R: Newsletter Dicembre 2007



La newsletter di r-project.org di questo mese è divisa in due sezioni: la prima riguarda le nuove applicazioni introdotte mentre la seconda riguarda gli strumenti sviluppati per facilitare l’interazione con R. Tra le applicazioni qui presentate vi è l’illustrazione di come R è stato utilizzato per curare le analisi di alcune importanti prestazioni finanziarie durante lo show televisivo Mad Money in onda sulla CNCB. Molto interessante è il pacchetto presentato da Hee-Seok e Donghoh Kim, per l’analisi di dati sferici quali ad esempio le condizioni atmosferiche/ambientali rilevate su certe aree del globo. Sebastiàn Luque segue gli animali acquatici nelle profondità dei mari e analizza il loro comportamento. Si parla anche di tre pacchetti sviluppati intorno a moderne metodologie statistiche: con DPpackage Alejandro Jara introduce tecniche d’inferenza Bayesiana Parametrica e Semi-Parametrica, Guido Schwarzer ha sviluppato il pacchetto meta per la meta-analisi, ed infine Sandra L. Taylor ha contribuito a realizzare una nuova versione del ben noto pacchetto multtest.
Per quanto riguarda le funzioni per una migliore interazione con R segnaliamo la descrizione di John Fox su come le funzionalità del suo noto R Commander possano essere estese attraverso l’uso di pacchetti plug-in.

Postato il 20/12/2007 15.12.28 in | Commenti (0) |
Scrivi |

10 Dicembre 2007

Tinn-R: Editor di R in ambiente Windows



Tinn è l’acronimo di “Tinn is not Notepad”. Inizialmente inteso come piccolo file editor in ASCII da affiancare alla console di R, Tinn-R è cresciuto nel tempo come potente editor di codice in ambiente Windows (9X/Me/2000/XP).
Scritto in Delphi 5 e distribuito sotto licenza GPL, Tinn-R è adesso giunto alla sua versione 1.19.4.1 ed è quanto di meglio possa disporre un appassionato utilizzatore di R in ambiente Windows. L’editor presenta un’interfaccia del tutto simile a quella degli Editor integrati nei più comuni tool MS, nonché un supporto senza paragoni in quanto a suggerimenti e a documentazione consultabile dinamicamente durante la scrittura dei comandi. Il debug del codice è estremamente efficace così come la gestione delle librerie installate e le funzioni richiamabili.
Sorprende come la comunità open-source non sia ancora riuscita a sviluppare qualcosa di simile (magari attraverso l’impiego di Mono).
Curiosità. Nella pagina principale del sito web dal quale sono state distribuite le prime versioni di Tinn-R, adesso è apposta la seguente comunicazione:
3/21/2005 Ho deciso d’interrompere il lavoro su Tinn. È stato divertente, ma sono giunto ad un punto in cui era più il lavoro del piacere. Grazie a tutti per il supporto ed i suggerimenti! Il codice è in GPL, e quindi da adesso in poi il vostro supporto sarà più che benvenuto.

Postato il 10/12/2007 17.04.37 in | Commenti (0) |
Scrivi |

23 Ottobre 2007

R: Newsletter Ottobre 2007



Seconda newsletter di quest’anno per r-project. A curarla è Torsten Horthon, che illustra le nuove funzionalità dell’ultima release di R lanciata la scorsa settimana (R 2.6.0). Sarà infatti disponibile dev2bitmap che consentirà l’impiego di colori semi-trasparenti, plotmath che offrirà accesso a tutte le caratteristiche della codifica Adobe Symbol, così come tre funzioni di ordine superiore quali Reduce, Filer, e Map.
Oltre a ciò il tempo necessario per l’avvio di R è stato notevolmente ridotto qualora non sia stato caricato il pacchetto methods. Sono stati aggiunti nuovi pacchetti quali ad esempio ADaCGH, per la gestione dei dati CGH, e yest per la selezione di modelli e la stima di varianza nei modelli d’indipendenza Gaussiani.
Tre dei nove articoli presenti in questa newsletter riguardano lavori presentati durante useR! 2006 tenutasi a Vienna: Peter Dalgaard parla di nuove funzionalità di analisi multivariata, Heather Turner e David Firth descrivono il loro nuovo pacchetto gnm per l’adattamento di modelli non lineari, mentre Olivia Lau e colleghi usano modelli ecologici per inferire comportamenti a singolo-livello a partire da dati aggregati.
Altre sezioni riguardano l’analisi di immagini di risonanza magnetica funzionale e di dati ambientali, la corrispondenza di studi osservazionali, e metodi di apprendimento automatico per l’analisi di sopravvivenza in presenza di dati categoriali così come di dati continui.
Infine Duncan Murdoch e Martin Maechler discutono sullo svolgimento di useR! 2007.

Postato il 23/10/2007 16.12.04 in | Commenti (0) |
Scrivi |

19 Ottobre 2007

Quiz su R?

Su R si possono spendere quante belle parole si desidera, sempre che non si tocchi il tasto dolente della scarsità di materiale di supporto che spesso caratterizza certi suoi pacchetti.
Allora, noi di Stat Project sottoscriviamo l’appello lanciato dal blog di scienze statistiche sociali dell’Università di Harvard:
Perl ha il suo Perl quiz, Python ha Python challenger, Ruby ha il suo Ruby quiz, ma non c’è nessuno che abbia pensato al nostro buon amico R? Possibile che non esista ancora uno spazio dedicato ai quiz su R? Sarebbe proprio un’idea simpatica…

Postato il 19/10/2007 17.40.21 in | Commenti (0) |
Scrivi |

20 Settembre 2007

Utenti di R di tutto il mondo: Unitevi!



Negli scorsi mesi abbiamo mancato di segnalarvi un preziosissimo appuntamento tenutosi presso l’Università di Stato dello Iowa tra l’8 e il 10 agosto scorsi, ovvero sia useR! 2007. Si è trattato di tre giorni interamente dedicati a cicli di conferenze e alla presentazione di alcuni tra i più celebri pacchetti di R così come delle implementazioni di ultimissima generazione. A dirigere le operazioni è stato lo stesso John Chambers, uno dei principali responsabili del progetto R-project.
Spiacenti per tale nostra mancanza, ci prendiamo in anticipo e vi segnaliamo fin da ora che il prossimo useR! si terrà tra il 12 ed il 14 agosto 2008 presso l’Università di Dortmund in Germania. È già disponibile su web una sezione interamente dedicata.

Postato il 20/09/2007 15.46.48 in | Commenti (0) |
Scrivi |

4 Settembre 2007

Google presenta: Aspetti Statistici del Data Mining

Nel mese di Agosto, Google ha organizzato un campus presso la Stanford University in cui si è svolto Statistics 202, una serie di giornate dedicate agli Aspetti Statistici del Data Mining. Si tratta di lezioni Master level, tenute dal Professor David Mease, del tutto sorprendenti per la comprensività degli argomenti trattati e per la chiarezza di esposizione.
Potete trovare le tredici video letture giornaliere tratte da questo avvenimento su Google Video; di seguito vi forniamo una breve descrizione delle prime otto:
Parte 1: Introduzione. Discussione su possibili sorgenti e luoghi da cui estrarre potenziali dati utili (lettori ottici, sistemi di accesso ad abitazioni tramite tessera magnetica, login da portatile, sensori di traffico, telefoni cellulari, google badge, ecc). Panoramica sul rapporto tra capacità di previsione futura e capacità di descrivere andamenti, e su altre macro aree del data mining. Introduzione a R.
Parte 2: Dati. Lettura di dataset in excel ed R. Data mining osservazionale vs Data Mining sperimentale. Variabili Qualitative vs. Variabili Quantitative. Valori Nominali vs. Valori Ordinali. E così via…
Parte 3: Dati Continui. Uso di Excel ed R. Campionamento.
Parte 4: Grafici. Istogrammi, ECDF.
Parte 5: Grafici di R. Grafici multipli. Significatività Statistica. Etichette nei Grafici.
Parte 6: Ancora sui Grafici di R. Box Plot. Colore nei grafici. Installazione dei pacchetti. Principi ACCENT e Tufte.
Parte 7: Regole di Associazione. Misure di posizione. Misure di dispersione. Misure di associazione. Itemset frequenti. Probabilità condizionate.
Parte 8: Ancora sulle Regole di Associazione. Calcoli di supporto e di confidenza. Personalizzazione attraverso regole. Oltre al supporto e alla confidenza.

Postato il 04/09/2007 15.24.51 in | Commenti (0) |
Scrivi |

16 Luglio 2007

lancet.iraqmortality: Analisi sui Tassi di Mortalità in Iraq

The Lancet, la prestigiosa rivista medica pubblicata settimanalmente dal Lancet Publishing Group, negli anni passati ha pubblicato due studi (Roberts et al (2004) e Burnham et al (2006)) sui tassi di mortalità in Iraq osservati prima e dopo l’invasione degli Stati Uniti.
David Kane ha realizzato un pacchetto del software R da impiegare per tre scopi. Primo, esso include una porzione dei dati riassuntivi relativi al primo studio. Secondo, esso fornisce semplici funzioni che permettono di lavorare sui dati relativi al secondo studio. Gli autori hanno tuttavia distribuito questi ultimi dati solo ad una cerchia ristretta di ricercatori selezionati, e quindi soltanto costoro possono usare questo pacchetto per lavorare agevolmente su tali dati. Per tutti però (Terzo) è prevista la possibilità di accedere ad una serie d’informazioni su alcuni dei punti più interessanti degli studi.

Per saperne di più, si visiti http://cran.us.r-project.org/src/contrib/Descriptions/lancet.iraqmortality.html

Postato il 16/07/2007 15.40.28 in | Commenti (0) |
Scrivi |

9 Luglio 2007

The R Book



Dopo il successo riscosso con il suo precedente best-seller Statistics: An Introduction using R, Michael J. Crawley pubblica The R book. Questo libro non è dedicato solo a coloro che si avvicinano ad R per la prima volta ma anche a coloro che di esperienza ne hanno già, e senza mai dare per scontata la conoscenza di tecniche di calcolo statistico e del software R.
Il libro rappresenta un primo manuale di riferimento per l’apprendimento del linguaggio R, e contiene una guida pratica alle numerose funzionalità grafiche implementate nel software; fornisce un’introduzione a tutti i modelli statistici ottenibili con R, a partire dai più semplici test quali il chi-quadro ed il test t fino all’analisi dei metodi più avanzati, dalla regressione all’analisi della varianza, dai modelli lineari generalizzati ai modelli misti generalizzati, dall’analisi delle serie storiche alle statistiche multivariate, e molto altro ancora.

Per maggiori informazioni si visiti http://eu.wiley.com/WileyCDA/WileyTitle/productCd-0470510242.html

Postato il 09/07/2007 14.34.47 in | Commenti (0) |
Scrivi |

5 Luglio 2007

Soluzione aziendale basata su R

Non se ne conoscono ancora i dettagli, ma la notizia si è diffusa rapidamente in molti ambienti di ricerca in campo biomedico: In occasione della Drug Information Association Conference tenutasi due settimane fa ad Atlanta, Random Technologies (nuovissima compagnia nata dalla University of Rochester Medical Center (URMC) di New York) ha presentato un nuovo pacchetto software statistico.
Il suo nome è RPro, e si tratta di un software open source totalmente basato sul sistema R, per il quale i suoi sviluppatori hanno grandi propositi:
Random Technologies intende fare per R quello che Red Hat ha fatto per Linux”, queste le eclatanti dichiarazioni di Gregory Warnes, fondatore della compagnia e professore associato di Biostatistica e Biologia Computazione, nonché co-direttore del centro sviluppo software presso l’URMC.
“R è un sistema eccezionalmente utile e dotato di capacità incomparabili, ed è attualmente adottato da personale accademico e ricercatori statistici. Random Technologies fornirà un supporto aziendale (enterprise-level) che consentirà alle imprese di sviluppare questo software come componente centrale del proprio business”.
“La comunità di sviluppatori di R ha fatto un lavoro eccezionale per la creazione a livello mondiale di strumenti di analisi e di visualizzazione. Random Technologies fornirà servizi alle imprese e supporterà il loro lavoro perché l’utilizzo di R divenga presto produttivo, così come avviene nelle collaborazioni con le aziende sviluppatrici di software commerciale.”

Per il momento non abbiamo altre notizie se non quelle divulgate attraverso i canali ufficiali della stessa URMC (http://www.urmc.rochester.edu/pr/news/story.cfm?id=1570). Non appena ne sapremo di più non mancheremo d’informarvi adeguatamente.

Postato il 05/07/2007 15.44.39 in | Commenti (0) |
Scrivi |

10 Maggio 2007

R per principianti

Utilizzare R è entusiasmante. Spesso però, per chi inizia, il problema è quello di non riuscire a districarsi tra i milioni di comandi disponibili ed accedere facilmente a risorse compiute che accompagnino passo-dopo-passo l’utente all’ottenimento dell’analisi desiderata.
Lo sappiamo benissimo: per un’entità in così continua evoluzione qual è R, non è facile preparare del materiale esaustivo e completo dedicato a chi non è pratico.
Ciò nonostante il Professor Norm Matloff, del Dipartimento di Computer Science dell’Università di California presso Davis, ha fatto un tentativo che noi riteniamo in buona parte riuscito. In questa pagina (http://heather.cs.ucdavis.edu/%7Ematloff/r.html), personalmente curata da Matloff, potete infatti trovare una descrizione semplice ad accessibile pressoché a tutti.
Basta avere un po’ di pazienza e provare a ripetere gli esercizi che qui vengono suggeriti.

Postato il 10/05/2007 16.30.36 in | Commenti (0) |
Scrivi |

27 Aprile 2007

R: Newsletter di Aprile 2007

Si tratta della prima newsletter pubblicata da r-project dopo la release della versione 2.5.0 di R. Quest’ultima versione, tra le tante nuove funzionalità, fornisce un supporto migliorato per gli ambienti JAVA e C. Inoltre, è disponibile un nuovo pacchetto, codetools, che include funzionalità attraverso le quali eseguire un check del codice R per la verifica di eventuali problemi.
La newsletter si apre con un intervento di Paul Murrell, in cui si parla della gestione dei file binari tramite l’utilizzo degli strumenti disponibili nel pacchetto hexView. Andrei Robinson illustra, invece, come gli utenti di R possono impiegare alcuni degli strumenti standard Unix per, ad esempio, la creazione di sistemi di generazione automatica di grandi quantità di email (non spam!). Gregor Gorjanc illustra come fronteggiare l’annoso problema della mancanza di dati e della definizione dei dati mancanti attraverso l’impiego del pacchetto gdata.
Bettina Grun a Fritz Leisch introducono il pacchetto flexmix per la definizione di modelli mistura finiti, prendendo come esempio l’analisi di un dataset relativo a 21 differenti marche di whiskey. Gemechis Dilba e colleghi descrivono l’utilizzo del pacchetto mratio per il calcolo dei test e degli intervalli di confidenza per i rapporti di medie, così come per i rapporti tra coefficienti di regressione. Jochen Einbeck illustra come impiegare il pacchetto npmlreg per l’adattamento di modelli ad effetti random.
E molto altro ancora...

Postato il 27/04/2007 14.44.25 in | Commenti (0) |
Scrivi |

22 Marzo 2007

Analisti dei Dati Ambientali, affrettatevi a consultare questi link!

Alla pagina http://www.unc.edu/courses/2006spring/ecol/145/001/docs/descrip.html potete trovare la descrizione dei contenuti del corso tenutosi la primavera scorsa presso The University of North Carolina at Chapel Hill dal titolo Statistical Analysis in Ecology and Evolution.
Il responsabile del corso è Jack Weiss ed il corso oltre a prevedere l’esposizione dei principali argomenti teorici relativi all’analisi dei dati ambientali, è costituito da un insieme di laboratori per l’applicazione pratica dei contenuti tramite l’utilizzo del software R.
Vi preghiamo di affrettarvi a consultare la sezione contenente le diapositive e i materiali distribuiti durante le lezioni (http://www.unc.edu/courses/2006spring/ecol/145/001/docs/lectures.htm), perché non è assicurato che tutto ciò rimanga disponibile per sempre per una consultazione senza limiti dal web.

Postato il 22/03/2007 15.21.42 in | Commenti (0) |
Scrivi |

19 Marzo 2007

Una risorsa tutta italiana per gli utenti di R



Il professor Adelchi Azzalini è uno tra i più noti esperti italiani di R. Scriviamo questo post perché troviamo pregevole ciò che sta facendo a livello accademico per diffondere tra i suoi studenti – così come altri docenti in Italia - quante più nozioni necessarie per l’impiego di questo straordinario tool in tutti i settori della ricerca, dei servizi e della produzione.
Non segnaleremmo questa sua pubblicazione se non avessimo avuto modo di studiarla e di applicare (con successo) le tecniche in essa descritte, ed è per questo che riteniamo giusto reclamizzare prima di tutto questo libro tra tutti quelli pubblicati sull’argomento.
Nella sostanza in esso è contenuto tutto il “supporto” teorico – in lingua italiana - all’insieme di script disponibili su web per l’impiego di R nell’ambito della costruzione di modelli di base di data mining.
I data set relativi agli esempi in esso descritti sono disponibili alla pagina personale del docente (http://azzalini.stat.unipd.it/), così come il collegamento alla casa editrice presso cui acquistare il libro (http://www.springer.com/east/home?SGWID=5-102-94-161744-0&referer=www.springer.it).

Postato il 19/03/2007 14.36.48 in | Commenti (0) |
Scrivi |

16 Gennaio 2007

La Facoltà di Scienze Statistiche della Sapienza di Roma offre un suo Corso Introduttivo all’Utilizzo di R



Iniziativa interessante quella lanciata dalla Facoltà di Scienze Statistiche dell’Università Sapienza di Roma di proporre un Corso Introduttivo all’Utilizzo di R a chiunque sia interessato ad utilizzare tale tool anche al di fuori della struttura accademica. Si tratta in tutto e per tutto di una proposta inserita nell’ambito di promozione dell’utilizzo dei software open source all’interno degli atenei, negli enti di ricerca e della PA. Il corso ha carattere puramente introduttivo, e mira a fornire gli strumenti indispensabili per acquisire le conoscenze indispensabili per un utilizzo corretto del software in sede di acquisizione/trattamento dati, analisi descrittiva, elaborazione grafica, regressione e statistica inferenziale.
Il corso si terrà nelle date del 22, 23 e 24 febbraio ed il costo è assai contenuto considerata la durata complessiva del corso (18 ore).

Per maggiori informazioni si visiti http://statistica.uniroma1.googlepages.com/home

Postato il 16/01/2007 14.56.20 in | Commenti (0) |
Scrivi |

1 Dicembre 2006

R: Newsletter di Dicembre 2006

Eccoci di nuovo qui con una nuovissima Newsletter di R-project! Ormai la scadenza con la quale vengono rilasciati tali editoriali non lascia più ombra di dubbio: R si sta affermando quale strumento di riferimento nel panorama dei software statistici, e la sua comunità di sviluppatori desidera (in)formare i suoi utenti con sempre maggiore frequenza e con una sempre maggiore ricchezza di contenuti.
Questa newsletter è dedicata al settore della Biologia e della Bioinformatica, ed in particolar modo in essa viene descritto come R sia ampiamente impiegato in molte aree della ricerca scientifica nel campo della genomica funzionale. Alcuni degli sforzi investiti in questa direzione hanno dato come risultato lo sviluppo del progetto Bioconductor (potete trovare su Stat Project un post dedicato), che ampio risalto ha avuto in molte pubblicazioni fin dal suo lancio nel 2001. Motivato dalle particolari problematiche poste dall’analisi dei dati genomici, il progetto ha portato nel corso degli anni alla realizzazione di un numero di innovazioni tecniche che poi hanno avuto benefici “di ritorno” anche su R. I dati biologici (si pensi ad esempio alle annotazioni genomiche) devono essere fortemente integrate con la fase dell’analisi dei dati primari, ed il progetto Bioconductor ha investito molti sforzi nello sviluppo di pacchetti di alta qualità per l’analisi di metadati. I dati sperimentali nella genomica funzionale richiedono l’impiego di un numero di formati strutturati molto superiore rispetto ai tipi di dati analizzabili con R, ed uno dei principali prodotti intergrati nel "core" di Bioconductor è proprio la gestione di strutture di dati che consentano uno scambio efficace di dati e di risultati computazionali tra i differenti pacchetti. Un esempio di ciò è ExpressionSet, una classe S4 per lo storage di dati ed informazioni essenziali riguardanti esperimenti su microarray.
Gli articoli contenuti in questa newsletter sono numerosi a questo riguardo: Vi sono articoli riguardanti la fase di pre-elaborazione (importazione e verifica della qualità dei dati, standardizzazione, modellazione e riepilogo errori) così come articoli riguardanti il “pattern discovery and detection”, e modelli statistici di alto livello con i quali consentire all’utente di ottenere preziose informazioni sulla natura dei processi biologici sottostanti.

Postato il 01/12/2006 16.47.06 in | Commenti (0) |
Scrivi |

9 Novembre 2006

Cos’è Bioconductor?



Nel post dell’8 novembre si è accennato a Bioconductor, e ques’oggi Stat Project desidera introdurre questo interessante progetto ai suoi lettori.
Bioconductor è un progetto aperto di sviluppo di un software open source per l’analisi e la comprensione dei dati genomici. Il progetto è partito nel 2001, ed il team responsabile di Bioconductor fa parte del Fred Hutchinson Cancer Research Center. Altri membri provengono da diversi istituti americani ed internazionali.
Bioconductor si basa principalmente sul linguaggio di programmazione R, ciò nonostante il team di sviluppo accetta contributi provenienti anche da altri linguaggi di programmazione.
Vengono rilasciate due versioni di Bioconductor ogni anno (in linea di massima in corrispondenza di ogni nuova release di R).
I principali obiettivi del progetto sono di:
- fornire accesso ad una vasta gamma di potenti metodi statistici e grafici per l’analisi dei dati genomici;
- facilitare l’integrazione dei metadati biologici nell’analisi di dati sperimentali; si pensi ad esempio alla mole di informazioni tratte da PubMed, annotazioni ricavate da LocusLink, ecc.;
- consentire lo sviluppo rapido di software estendibile, scalabile, ed integrabile;
- promuovere una documentazione di alta qualità e ricerche riproducibili;
- fornire formazione nel campo del calcolo statistico per l’analisi dei dati genomici.

Per maggiori informazioni si prega di visitare il sito dedicato al progetto: http://www.bioconductor.org/

Postato il 09/11/2006 14.22.51 in | Commenti (0) |
Scrivi |

8 Novembre 2006

R: Newsletter Ottobre 2006



È disponibile a breve distanza dall’ultima – ed in coincidenza con la release della versione 2.4.0 – una nuova newsletter su R. I contenuti della newsletter riguardano aspetti generici di gestione e analisi dei dati: è per questo che Stat Project ha inserito questo post all’interno della sua sezione Attualità.
La newsletter comincia con un articolo di Max Kuhn riguardante il pacchetto odfWeave, che implementa funzionalità di analisi statistica in stile Sweave, ma con documenti ODF (Open Document Format). Dopodiché, Jim Lemon introduce il suo pacchetto plotrix per la produzione di una varietà di funzionalità per la personalizzazione dei grafici. Adrian Bowman, Crawford, e Bowman descrivono invece il pacchetto rpanel, che fornisce un “involucro” più maneggevole e facile da usare per le funzionalità del pacchetto tcltk, con alcuni simpatici esempi su come produrre semplici grafici interattivi.
Matthew Pocernich descrive come utilizzare R per analizzare i livelli di CO2 ed inserire nel dibattito annoso circa il riscaldamento globale alcune efficaci analisi riproducibili.
L’articolo successivo, di Roger Peng, introduce il pacchetto filehash, che fornisce un nuovo approccio al problema della gestione di grandi insiemi di dati in R. Robin Haskin descrive quindi il pacchetto gsl, che implementa un’interfaccia ad alcune “esotiche” funzioni matematiche disponibili in GNU Scientific Library.
L’ultimo dei tre principali articoli ha contenuti più statistici. Wolfgang Lederer e Helmut Kuchenhoff descrivono il pacchetto simex per l’analisi degli errori di misurazione. Roger Koenker discute invece gli aspetti legati ad alcune funzioni di collegamento non tradizionali per l'analisi di modelli lineari generalizzati. Mentre Victoria Leiva ed alcuni co-autori introducono il pacchetto bs, che implementa la Distribuzione Birnbaum-Saunders.
In altri contributi, Susan Holmes presenta la recensione del libro di Fionn Murtagh “Correspondence Analisys and Data Coding with Java and R”, mentre Uwe Ligges fornisce un articolo su come trovare il codice sorgente di una funzione di R.
La newsletter si conclude con una lista di aggiornamenti regolari circa i cambiamenti apportati in R, i nuovi pacchetti disponibili su CRAN, i membri e coloro che hanno contribuito all’R Foundation, e le news più recenti circa il progetto Bioconductor.

Postato il 08/11/2006 14.41.45 in | Commenti (0) |
Scrivi |

7 Novembre 2006

Un Manuale di Sopravvivenza per chi vuol fare data mining



Nel post del 27 ottobre scorso, abbiamo parlato di Rattle, la nuova interfaccia utente per il data mining con R realizzata da Togaware. Una rapida navigazione attraverso le abbondanti risorse messe a disposizione on line da Togaware consente di scoprire come vi sia anche Data Mining Desktop Survival Guide, una guida utilissima per la comprensione delle pratiche di deployment, di aggiornamento e rifinitura, sull'impiego degli algoritmi e degli strumenti analitici disponibili, applicabili nel campo del data mining. Naturalmente la guida si basa su esempi reali di applicazione di Rattle e quindi di tutte le funzionalità tipiche del celebre software open source R.
L’autore, il dottor Graham Williams, è stato ricercatore ed insegnante di data mining per oltre 15 anni, con una lunga esperienza di applicazioni di successo di data mining nel settore dell’industria e delle istituzioni pubbliche. Ha insegnato data mining per oltre 10 anni e ha pubblicato numerosi paper sull’argomento. Al momento ricopre la carica di Principal Data Miner presso l’Australian Taxation Office, e di responsabile del supporto tecnico del più grande gruppo di data mining in Australia.
La guida è consultabile on line alla pagina: http://datamining.togaware.com/

Postato il 07/11/2006 14.43.52 in | Commenti (0) |
Scrivi |

27 Ottobre 2006

Rattle: Interfaccia utente per il data mining con R



Rattle (R Analytical Tool To Learn Easily) è la nuova interfaccia utente, semplice e logica, per il data mining con R. Si tratta di una nuova applicazione di data mining, consistente in un’interfaccia grafica in ambiente Gnome basata sul celebre linguaggio open source R. L’applicazione gira in GNU/Linux, Macintosh OS/X, e MS/Windows. Lo scopo è fornire un’interfaccia intuitiva e pratica che consenta all’utente di seguire facilmente tutti gli step fondamentali del processo di data mining, così come di visualizzare allo stesso tempo il codice R impiegato di volta in volta. Gli strumenti grafici in essa integrati dovrebbero essere sufficienti per tutti gli scopi e tutte le necessità.
L’ultima versione è disponibile per il download alla pagina: rattle.togaware.com
In questa versione, l’utente disporrà delle seguenti sezioni:
- Dati: Importazione di CSV; Supporto di Dataset R; ODBC
- Esplorazione: Riepiloghi Riassuntivi; Correlazioni tra Caratteristiche; Gruppi di Caratteristiche Gerarchici a Dendogramma
- Grafici: Box plot, Istogrammi, CFD, Benford’s Law, Grafici a barre, Dot plot
- Analisi dei Gruppi: KMeans; Analisi Gerarchica con Dendogrammi
- Modellazione: Alberi Decisionali (rpart); Modelli Lineari Generalizzati; Boosting; Foreste Casuali; Support Vector Machine;
- Valutazione: Matrice di Confusione; Risk Chart; Lift Chart; Curve ROC e AUC; Precisione; Sensibilità.

Postato il 27/10/2006 16.00.54 in | Commenti (0) |
Scrivi |

25 Settembre 2006

R: Newsletter di Agosto 2006



La prima sezione della newsletter di Agosto 2006 distribuita da http://www.r-project.org/ è incentrata su equazioni di adattamento ricavate dall’esperienza sperimentale nel campo chimico, ed in particolar modo nel settore della modellazione di regressione non lineare. Peter Watkins e Bill Venables riportano un esempio di cromatografia, nel quale viene modellato il processo di ritenzione degli acidi carbossilici. Il loro paper fornisce alcune interessanti indicazioni su come inizializzare il processo di ottimizzazione. Nel paper successivo, Johannes Ranke descrive come utilizzare il pacchetto drift per l’adattamento di curve dose-risposta.
I tre paper successivi riguardano applicazioni più analitiche, e trattano lo studio di dati spettrali di vario tipo. Nel primo, Bjørn-Helge Mevik descrive l’implementazione di PCR e di molte varianti di PLS inserite nel pacchetto pls. Egli illustra l’utilizzo del pacchetto applicando le sue funzioni a dati di tipo “near-infrared”: esempio appropriato in quanto questa forma di spettroscopia non viene quasi più impiegata se non nell’impiego di tecniche di calibratura multivariate. Quindi, Chris Fraley ed Adrian Raftery descrivono come applicare il pacchetto mclust in molte applicazioni chimiche per l’analisi dei gruppi. Le forme di spettroscopia qui considerate producono immagini invece di spettri; gli esempi sono incentrati sullo studio di immagini di microarray segmentanti e di immagini di risonanze magnetiche dinamiche. Ron Wehrens ed Egon Willighagen propongono invece un paper sull’utilizzo delle mappe auto-organizzanti per l’analisi di grandi database contenenti informazioni su strutture cristalline, e dell’implementazione di questa nel pacchetto wccsom. Per confrontare i descrittori di tipo spettrale dei cristalli, è stata utilizzata una speciale misura di similarità inventata ad hoc.
La newletter si conclude con un importate contributo di Rajarshi Guha sulle connessioni tra R e Chemistry Development Kit (CDK), un altro progetto open-source che sta rapidamente guadagnando notevole popolarità. Con CDK, è semplice generare descrittori di strutture molecolari, da poter utilizzare poi in R per modellare e prevedere il comportamento delle proprietà d’interesse.

Postato il 25/09/2006 16.04.11 in | Commenti (0) |
Scrivi |

22 Settembre 2006

Laboratori con R per Analisi della Vegetazione



Il Montana State University ha da tempo pubblicato su web una sezione contenente alcuni estratti relativi ai topic fondamentali del loro corso di Analysis of Ecological Communities.
Nella sostanza si tratta di un vero e proprio laboratorio da seguire attraverso l’impiego di R, e che riguarda tutte le principali analisi da applicate in questo tipo di studi (si pensi, ad esempio, a Detrended Correspondence Analysis (DCA) e a tutti gli strumenti di derivazione GIS). È inoltre disponibile una serie di file dati d’esempio, strutturati così come i file dati tradizionalmente usati per l’analisi di specie e comunità vegetali/ecologiche.
Questa guida consente, a chi ha già dimestichezza con l’utilizzo di R, di ottenere risultati di altissima qualità e, soprattutto, d’imparare a come applicare queste tecniche nella propria ricerca.
Queste alcune delle sezioni qui contenute:
Introduzione
Introduzione all’utilizzo di R
Familiarizzazione con i Dati
Caricamento dei Dati di Vegetazione e Semplici Riepiloghi Grafici
Caricamento dei Dati di Sito e Semplici
Riepiloghi Grafici
Tabelle Riassuntive
Modellazione delle Distribuzioni di Specie
Modelli Lineari Generalizzati
Modelli Additivi Generalizzati
Alberi di Classificazione
Ordinamento
Analisi delle Componenti Principali
Analisi delle Coordinate Principali
Scaling Multidimensionale
Analisi delle Corrispondenze e Analisi delle Corrispondenze Detrendizzate
Analisi dei Gruppi
Analisi dei Gruppi
Analisi Discriminante con Classificatori ad Alberi

Postato il 22/09/2006 17.14.18 in | Commenti (0) |
Scrivi |