24 Ottobre 2009

 Com’è stato vinto il Netflix

Capitolo definitivamente chiuso per quanto riguarda il primo concorso a premi indetto da Netflix. L’obiettivo di ottenere un miglioramento del 10% dell’algoritmo alla base del sistema di raccomandazione e suggerimento della nota catena statunitense di noleggio DVD è stato raggiunto solo dopo che il Caos Pragmatico di Bellkor e l’Ensemble, i team che sono giunti rispettivamente primo e secondo dopo la prima tornata della competizione, hanno unito le loro forze per offrire ognuno un proprio contributo significativo

7 Settembre 2009

 La prossima soluzione di Data Mining che verrà acquisita entro un anno

Brillante idea quella di Gregory Piatetsky-Shapiro di fare un sondaggio su quale delle soluzioni/società di data mining verrà acquisita secondo i lettori di KDnuggets nei prossimi 12 mesi.
Nella sostanza la corsa delle big company ad accaparrarsi questo tipo di strumenti è tale da far pensare che tra breve qualcun altro si possa muovere per acquisire qualcuno dei pochi “gioielli” ancora rimasti invenduti (ricordiamo che è da poco avvenuta l’acquisizione di SPSS da parte di IBM)

26 Agosto 2009

 mloss.org: Importante archivio di software open source dedicati al machine learning

mloss.org è un archivio di software open source per l’esecuzione di algoritmi di apprendimento automatico (machine learning).
La quantità ospitata di algoritmi e software è smisurato, sia per obiettivo di analisi che per tipo di linguaggio utilizzato (C, C#, C++, Java, Matlab, Perl, Python, R, ecc.). Inoltre per facilitare la comprensione dei contenuti sono disponibili un Forum, un Blog, nonché una serie di funzioni di ordinamento per giudizio espresso dagli utenti.

3 Luglio 2009

 Il Text Mining ed il Data Warehousing secondo Facebook

Ho già avuto modo almeno in un paio di occasioni di constatare come ad esempio gli analisti di Facebook siano estremamente interessati a sviluppare soluzioni ad albero di partizionamento realmente in grado di consentire loro di classificare efficientemente i propri utenti (vedi Come R viene utilizzato da Google e Facebook)

26 Giugno 2009

 Glossario di Data Mining

Gabor Melli ha realizzato un’eccellente raccolta di termini specificamente utilizzati nel settore del data mining, con spiegazione e rimandi allegati.

26 Maggio 2009

 ORANGE: Data Mining open source in Python

Sviluppato presso la Facoltà di Scienze Informatiche dell’Università di Lubiana, Orange è un software modulare per il data mining. Include una grande varietà di tecniche di pre-elaborazione, modellazione ed esplorazione dei dati. Orange è basato su componenti scritti in C++, accessibili ed azionabili da chiunque attraverso l’utilizzo di script molto semplici in Python oppure attraverso ad oggetti GUI chiamati anche Orange Widgets

22 Aprile 2009

 CLADAG 2009 e Competizione in Data Mining

In occasione del prossimo convegno Cladag che si terrà a Catania dal 9 all'11 settembre 2009, in collaborazione con SAS Institute, viene bandito un premio per giovani ricercatori concernente analisi di data mining

6 Aprile 2009

 Letture e Corsi su Data Mining

Aggiorniamo la nostra lista di risorse disponibili su web da cui attingere per imparare a fare data mining

1 Aprile 2009

 L’Irragionevole Efficacia dei Dati

Ho sempre pensato che la traduzione automatica delle lingue fosse uno degli argomenti che sta più a cuore ai giganti dell'industria informatica. Intorno ad essa giocano interessi enormi, e la costruzione di un modello statistico veramente funzionante per la traduzione e l'associazione delle parole rappresenterebbe un successo dalle conseguenze inimmaginabili.

27 Marzo 2009

 La Distanza Normalizzata di Google (NGD) e le Relazioni Semantiche

Distanza di Google, la cui formula nella forma normalizzata è quella potete vedere qui sopra. La Distanza di Google è una misura d'interdipendenza semantica derivata dal numero di voci restituite dal motore di ricerca di Google per un dato insieme di parole chiave

5 Marzo 2009

 Tutta la verità su Data Mining, Business Intelligence, Predictive Analytics

Tre termini che spesso vengono confusi e che la maggior parte delle persone, quand'anche dei professionisti, non sa esattamente cosa significhino. Questo post pubblicato su Todd's World rispecchia esattamente il mio pensiero in merito, e spero chiarisca le idee a tutti i coloro che sperando di risolvere tutti i loro problemi attendono da un software la spiegazione automatica di cosa suggerisce il "cuore" della loro massa informe di dati.

4 Marzo 2009

 Cruciverba sul Data Mining

Gregory Piatetsky-Shapiro, uno dei ns idoli qui a Stat Project, ha pubblicato tramite la nota piattaforma Crossword Compiler un bel Cruciverbone sul Data Mining. Cimentatevi anche voi nella soluzione di queste parole incrociate e poi sappiateci dire in quanto tempo siete riusciti a completarle.

21 Gennaio 2009

 I vincitori del Netflix Prize

Ho già parlato più volte di questo Premio che passerà alla storia per essere stato il primo vero "banco di prova" su sui si è cimentata una buona fetta della comunità mondiale di data miner

25 Novembre 2008

 Il Netflix Prize ed il paradosso Napoleon Dynamite

Del Netflix Prize abbiamo avuto modo di parlare già in due occasioni: una volta per annunciare l'avvio delle iscrizioni a questo insolito quanto intrigante concorso, e una seconda volta per descrivere l'entusiasmo che si estese presto a tutta la comunità di appassionati (statistici, nerds, informatici, ecc.) che decisero di cimentarsi

14 Novembre 2008

 Banche alla ricerca ossessiva del cliente solvibile

Per anni ho creduto che gli istituti finanziari americani, in quanto tecnologicamente più evoluti, fossero già dediti da molto tempo a pratiche di analisi predittiva. Per anni ho creduto che il loro interesse principale fosse stabilire la solvibilità di un cliente al momento della richiesta di un prestito, e che la maggiore preoccupazione dei loro amministratori fosse investire in strumenti/persone specializzate nell'applicazione delle più moderne tecniche di data mining.