Archivo para la categoría ‘Data Mining’

IBM compra SPSS

Martes, Julio 28th, 2009

La noticia es de hoy. Los grandes vendedores de software y servicios quieren completar sus portafolios de productos. SPSS intentó extenderse a otras áreas del BI sin demasiado éxito. IBM hizo lo mismo en el área de la minería de datos. Incluso corrieron rumores de boda entre SAS y Teradata ...

Sobre la historia de CART y rpart

Jueves, Junio 25th, 2009

Hace unos días conversábamos Raúl y yo sobre árboles de clasificación. En particular, hablábamos de CART, el algoritmo propietario de Salford Systems. Me intrigó saber cuál sería la diferencia entre dicho algoritmo y la alternativa existente en R, rpart. El autor de dicho paquete, Terry Therneau,  tuvo la gentileza de ofrecer ...

partykit: un paquete de R para generar y manipular árboles de decisión

Martes, Junio 9th, 2009

Los usuarios de R disponen de una serie de algoritmos estándar para generar y manipular árboles de decisión. Los más habituales están contenidos en alguno de los siguientes paquetes: rpart, tal vez mi favorito RWeka, un paquete más genérico que permite realizar llamadas a funciones de Weka desde R mvpart party Cada uno de ellos ...

Herramientas visuales y libres de minería de datos

Viernes, Junio 5th, 2009

El otro día me preguntó una amiga estadística qué herramienta visual de minería de datos libre —imagino que también quería decir gratuita—  le recomendaba. Pensaba que la respuesta a la pregunta era sobradamente conocida de los que nos movemos en nuestro estrecho mundillo. La constatación —sobre una muestra que he ...

Macros SAS. Tramificar en función de una variable respuesta

Miércoles, Abril 8th, 2009

Sobre la idea de “dumificar” variables he ideado un proceso para agrupar variables cuantitativas en función de una variable respuesta. Los que disponéis de herramientas de análisis más complejas tipo Enterprise Miner o Clementine ya disponéis de algoritmos y funciones que realizan esta útil tarea, además los árboles pueden trabajar ...

El Data Mining no es la caja negra que selecciona clientes

Viernes, Agosto 29th, 2008

El manuscrito Voynich es un libro escrito hacia el siglo XVI cuyo contenido debe ser muy sofisticado y completamente revolucionario. Y debe de serlo porque a fecha de hoy, y tras 500 años estudiándolo nadie ha descifrado su significado. Así el manuscrito Voynich es algo tremendamente revolucionario que no sirve ...

Google Mining. Análisis de las páginas indexadas (I)

Jueves, Junio 12th, 2008

El proyecto de minería de textos con Excel ha generado el Google Mining. Veamos como puede ayudar la minería de páginas de búsqueda con Google a gestionar una web. Si en el buscador de Google escribimos site:<nombre del sitio web> obtenemos todas las páginas indexadas de nuestro sitio. En el ...

Proyecto. Text Mining con Excel pasa a ser Google Mining

Lunes, Junio 2nd, 2008

El término Google Mining ya está acuñado, no soy ningún pionero ni he tenido una idea brillante. Pero al preparar la herramienta de Text Mining con Excel me he dado cuenta que estoy contruyendo (sin querer) una potente herramienta para la creación de BBDD de páginas web, una herramienta que ...

Proyecto. Text Mining con Excel (IV)

Lunes, Mayo 26th, 2008

En la anterior entrega del seguimiento de mi proyecto de minería de textos con Excel creé un proceso que leía búsquedas de Google y las almacenaba en un fichero excel que denominaba base. El problema que me encontré es que generaba un excel con una gran cantidad de hojas y ...

Proyecto. Text Mining con Excel (III)

Lunes, Mayo 5th, 2008

Para hacer mi proceso de Text Mining necesito un "tablón" de entrada. Sin información bien tabulada es imposible encontrar patrones sintácticos ni palabras que me ayuden a encontrar mi oportunidad de negocio dentro de la formación en Business Intelligence. Para la realización de este tablón de entrada emplearé macros de ...