24 Ottobre 2009
Capitolo definitivamente chiuso per quanto riguarda il primo concorso a premi indetto da Netflix. L’obiettivo di ottenere un miglioramento del 10% dell’algoritmo alla base del sistema di raccomandazione e suggerimento della nota catena statunitense di noleggio DVD è stato raggiunto solo dopo che il Caos Pragmatico di Bellkor e l’Ensemble, i team che sono giunti rispettivamente primo e secondo dopo la prima tornata della competizione, hanno unito le loro forze per offrire ognuno un proprio contributo significativo
7 Settembre 2009
Brillante idea quella di Gregory Piatetsky-Shapiro di fare un sondaggio su quale delle soluzioni/società di data mining verrà acquisita secondo i lettori di KDnuggets nei prossimi 12 mesi.
Nella sostanza la corsa delle big company ad accaparrarsi questo tipo di strumenti è tale da far pensare che tra breve qualcun altro si possa muovere per acquisire qualcuno dei pochi “gioielli” ancora rimasti invenduti (ricordiamo che è da poco avvenuta l’acquisizione di SPSS da parte di IBM)
26 Agosto 2009
mloss.org è un archivio di software open source per l’esecuzione di algoritmi di apprendimento automatico (machine learning).
La quantità ospitata di algoritmi e software è smisurato, sia per obiettivo di analisi che per tipo di linguaggio utilizzato (C, C#, C++, Java, Matlab, Perl, Python, R, ecc.). Inoltre per facilitare la comprensione dei contenuti sono disponibili un Forum, un Blog, nonché una serie di funzioni di ordinamento per giudizio espresso dagli utenti.
3 Luglio 2009
Ho già avuto modo almeno in un paio di occasioni di constatare come ad esempio gli analisti di Facebook siano estremamente interessati a sviluppare soluzioni ad albero di partizionamento realmente in grado di consentire loro di classificare efficientemente i propri utenti (vedi Come R viene utilizzato da Google e Facebook)
26 Maggio 2009
Sviluppato presso la Facoltà di Scienze Informatiche dell’Università di Lubiana, Orange è un software modulare per il data mining. Include una grande varietà di tecniche di pre-elaborazione, modellazione ed esplorazione dei dati. Orange è basato su componenti scritti in C++, accessibili ed azionabili da chiunque attraverso l’utilizzo di script molto semplici in Python oppure attraverso ad oggetti GUI chiamati anche Orange Widgets
22 Aprile 2009
In occasione del prossimo convegno Cladag che si terrà a Catania dal 9 all'11 settembre 2009, in collaborazione con SAS Institute, viene bandito un
premio per giovani ricercatori concernente analisi di data mining
6 Aprile 2009
Aggiorniamo la nostra lista di risorse disponibili su web da cui attingere per imparare a fare data mining
1 Aprile 2009
Ho sempre pensato che la traduzione automatica delle lingue fosse uno degli argomenti che sta più a cuore ai giganti dell'industria informatica. Intorno ad essa giocano interessi enormi, e la costruzione di un modello statistico veramente funzionante per la traduzione e l'associazione delle parole rappresenterebbe un successo dalle conseguenze inimmaginabili.
27 Marzo 2009
Distanza di Google, la cui formula nella forma normalizzata è quella potete vedere qui sopra.
La Distanza di Google è una misura d'interdipendenza semantica derivata dal numero di voci restituite dal motore di ricerca di Google per un dato insieme di parole chiave
5 Marzo 2009
Tre termini che spesso vengono confusi e che la maggior parte delle persone, quand'anche dei professionisti, non sa esattamente cosa significhino.
Questo post pubblicato su Todd's World rispecchia esattamente il mio pensiero in merito, e spero chiarisca le idee a tutti i coloro che sperando di risolvere tutti i loro problemi attendono da un software la spiegazione automatica di cosa suggerisce il "cuore" della loro massa informe di dati.
4 Marzo 2009
Gregory Piatetsky-Shapiro, uno dei ns idoli qui a Stat Project, ha pubblicato tramite la nota piattaforma Crossword Compiler un bel Cruciverbone sul Data Mining.
Cimentatevi anche voi nella soluzione di queste parole incrociate e poi sappiateci dire in quanto tempo siete riusciti a completarle.
21 Gennaio 2009
Ho già parlato più volte di questo Premio che passerà alla storia per essere stato il primo vero "banco di prova" su sui si è cimentata una buona fetta della comunità mondiale di data miner
25 Novembre 2008
Del Netflix Prize abbiamo avuto modo di parlare già in due occasioni: una volta per annunciare l'avvio delle iscrizioni a questo insolito quanto intrigante concorso, e una seconda volta per descrivere l'entusiasmo che si estese presto a tutta la comunità di appassionati (statistici, nerds, informatici, ecc.) che decisero di cimentarsi
14 Novembre 2008
Per anni ho creduto che gli istituti finanziari americani, in quanto tecnologicamente più evoluti, fossero già dediti da molto tempo a pratiche di analisi predittiva. Per anni ho creduto che il loro interesse principale fosse stabilire la solvibilità di un cliente al momento della richiesta di un prestito, e che la maggiore preoccupazione dei loro amministratori fosse investire in strumenti/persone specializzate nell'applicazione delle più moderne tecniche di data mining.