Archivo de la etiqueta: minería de datos

El futuro de la profesión

Nuestra profesión, la del estadístico que trabaja en la industria o la consultoría, está sometida a los cambios que exige el nuevo siglo. Llevo meses clamando en vano frente a un público que no escucha mis advertencias de peligro de obsolescencia. Pero un anuncio de un puesto de trabajo en un país lejano y que algunos consideran adelantado, me hace sentir reivindicado.

Atención a los requisitos meramente técnicos:

  • Escribir e interpretar queries de SQL complejas
  • Escribir e interpretar análisis de datos del tipo map-reduce usando Hadoop y Pig
  • Escribir código combinando SQL, Java, Pig y otros lenguajes de script
  • Trabajar con conjuntos de datos grandes de tipo desestructurado (varios terabytes, más de 100 millones de trnsacciones diarias)
  • Experiencia con lenguajes de script y expresiones regulares
  • Interés en matemáticas discretas y estadística
  • Experiencia transformando requisitos de negocio en sistemas informáticos

Nos adentramos en un brave new world, quiéranlo los nostálgicos del s. XX o no.

Minería de datos con R: un pequeño paseo

Éste es mi primer monográfico. Como soy más perezoso que Raúl y peor estudiante que nadie, en lugar de hacerlo yo, lo copio. Y en lugar de desarrollarlo en su totalidad, dejo más de la mitad como deberes.

Y es que he encontrado un pequeño programa en R que repasa una serie de técnicas clásicas de minería de datos a modo de paseo. Está en inglés y tal vez alguien (es la tarea que propongo a algún voluntarioso lector del blog) se anime a traducirlo. De hacerlo, me comprometo a darle alojamiento y publicidad respetando las debidas atribuciones.

Viene acompañado de una presentación que parece que casi habla de otra cosa. Fea o bonita, está escrita con Beamer (para los no iniciados: Beamer es lo que el Ministerio de Trabajo no quisiera nunca que se popularizara: mandaría al paro a esas hordas de pepeteros que pueblan las oficinas menos productivas).

Dos vecinos muy próximos de la “blogosfera”

Hoy voy a hablar de la competencia, siempre muy deportiva, de este blog. Espero que Raúl me excuse y entienda que no quiero alimentar contadores de visitas ajenos a expensas de los propios sino establecer relaciones de buena vecindad con otros proyectos interesantes y complementarios.

El primero, El blog de los erreros, del que tuve noticia hablando con su autor mientras comíamos en la cantina de la Universidad de Murcia en el marco de las Jornadas de R (las primeras de una serie perpetua, quede dicho). Está orientado al mundo de R y contiene trucos, noticias y aplicaciones estadísticas (desarrolladas y resueltas, claro está, con R).

Del segundo, GMK, o, más descriptivamente, El blog del geomárketing y el data mining, he de confesar vergonzosamente, no tuve noticia hasta no hace mucho: aterricé en él de casualidad mientras buscaba algo que allí no encontré. Pero lo coleccioné enseguida en mi pestaña de Estadística de mi cuenta de Netvibes junto con otros 16 blogs del mismo tema. Trata de los dos asuntos (hasta cierto punto interrelacionados) que anuncia. De uno, el geomárketing, aunque me parece apasionante, casi nada sé. Pero es revelador constatar cómo desde el aire, nos triangulan, categorizan, y hay quienes saben aprovechar esas inercias borreguiles y cotidianas nuestras para ubicar un Mercadona en la esquina adecuada de forma que, indefectiblemente, acabamos entrando. O lo contrario.

El segundo tema, el de la minería de datos, me es más propio, es evidente que está tratado desde la trinchera y motivado de una enorme inquietud y curiosidad intelectual. Es de recomendadísima lectura.