Aprende Pyspark sin complicaciones

Hace tiempo un gran data engineer me preparó una máquina virtual para hacer “pinitos” con pyspark y llevaba tiempo pensando en como poder publicar trucos y ejemplos con pyspark sin necesidad de máquinas virtuales y empleando notebooks. Ya he encontrado la mejor manera, los contenedores de docker. Cuanto más profundizo en docker más me gusta […]

Leer más
Crear archivo csv desde SAS con Python

Con la librería sas7bdat de Python podemos leer archivos SAS y crear directamente un data frame, es la mejor librería para hacerlo, si la tabla SAS que deseáis leer está comprimida (compress=yes) con pandas no podréis hacerlo. Pero tengo que agradecer a mi compañero Juan que me haya descubierto la función convert_file para pasar directamente […]

Leer más
Truco Python. Seleccionar o eliminar variables de un data frame en base a un prefijo, sufijo o si contienen un caracter

A la hora de seleccionar las características de un data frame es posible que nos encontremos con la necesidad de seleccionar o eliminar características del data frame y que el nombre de esas características tenga un determinado patrón. Esta labor la podemos realizar mediante selección de elementos en listas, en esta entrada del blog vamos […]

Leer más
Truco Python. Restar meses con formato YYYYMM

La operación con fechas en meses con el formato YYYYMM es tarea habitual cuando trabajamos con tablas particionadas. De hecho hay una entrada en el blog sobre esto muy popular. Me ha surgido este tema con Python y os pongo la función que he creado: Muy sencilla, por si os surge la necesidad.

Leer más
Libro de R de Carlos Gil

Muchos de los lectores de esta bitácora conocéis https://www.datanalytics.com/ el blog de Carlos Gil. En él ha publicado un libro/manual de R de acceso libre para todos aquellos que necesitéis una guía que abarque desde lo más básico al tratamiento de datos con R pasando por Shiny y análisis estadísticos de esos viejunos tan denostados […]

Leer más
Facebook y su Facebookgate son buenas noticias para el data scientist y para el oficio en general

En todo el lío de Facebook y su Facebookgate o Facegate ha aparecido el nombre de Cambridge Analytica empresa dedicada al análisis de datos para el desarrollo de campañas. Probablemente en la mente de todos está la forma de operar de esta compañía con estorsiones, prostitutas y malas artes varias. Sin embargo yo me quedo […]

Leer más
ILOVEFS18 Amor por el software libre

Los días 13 y 14 de Febrero no podéis perderos en Madrid el ILOVEFS18 un evento al que si estáis por aquí no podéis faltar. Para más información tenéis el siguiente link: http://medialab-prado.es/article/ilovefs18 ¡Nos vemos!

Leer más