/head>
Aprende Pyspark sin complicaciones

Hace tiempo un gran data engineer me preparó una máquina virtual para hacer “pinitos” con pyspark y llevaba tiempo pensando en como poder publicar trucos y ejemplos con pyspark sin necesidad de máquinas virtuales y empleando notebooks. Ya he encontrado la mejor manera, los contenedores de docker. Cuanto más profundizo en docker más me gusta […]

Leer más
Diagramas de Voronoi con spatial de python

En breve “mis cachorros”, como llamo a un grupo de los mejores Data Scientist de Europa (de los que tengo que hablar algún día) se van a enfrentar a un problema que probablemente tengan que resolver con análisis geométricos muy complejos. Para despertarles la curiosidad (sé que me leen) hoy traigo al blog una entrada […]

Leer más
Quiero aprender Big Data

Hoy me han dicho esto. Y mi respuesta ha sido un correo electrónico con estas dos imágenes. El Big Data Landscape 2013: Y un Big Data Landscape de 2016: ¿Se puede “aprender” Big Data? Aprende que se puede hacer con los datos y aprende R. Como recomendación: di bigdaita así parece que controlas.

Leer más
De estadístico a minero de datos a científico de datos…

Hace unos meses estuve en un data beers que organizó Accenture que mas parecía una reunión de viejas glorias de Neo Metrics y hablé sobre la transformación de un dinosaurio a un científico de datos, por cierto, me llamó la atención como el resto de compañeros hicieron sus presentaciones con software del siglo pasado y […]

Leer más
El parámetro gamma, el coste, la complejidad de un SVM

Cuando clasificamos datos con SVM es necesario fijar un margen de separación entre observaciones, si no fijamos este margen nuestro modelo sería tan bueno tan bueno que sólo serviría para esos datos, estaría sobrestimando y eso es malo. El coste C y el gamma son los dos parámetros con los que contamos en los SVM. […]

Leer más
Cuando paralelizar procesos con R era otra cosa

Allá en noviembre de 2011 en las III jornadas de usuarios de R en España José Ramón Díaz Uriarte nos habló de paralelizar procesos con R, los principios de ese concepto que han denominado Big Data: http://usar.org.es/pdfs/Diaz_Uriarte-final.pdf Han avanzado los tiempos en el mundo de R y de la paralelización de procesos. Y es quizá […]

Leer más
Data mining vs Bigdata. De momento con Google Trends

Bigdata por aquí bigdata por allá y resulta que en Google sigue habiendo muchas más búsquedas sobre data mining. Este dato tiene importancia porque el bigdata no tiene sentido sin el data mining. Incluso podríamos prescindir del bigdata porque lo importante es lo que queremos hacer no como lo queramos hacer. Saludos.

Leer más
SQL vs Hadoop. Más que una tendencia

Google Trends, SQL frente a Hadoop. La tendencia es clara, mientras el interés por Hadoop está creciendo, el interés por SQL baja en picado [aunque vaticino un estancamiento de 2-3 años]. Y si analizamos el interés por zona geográfica por Hadoop: Ya podéis avidinar quienes marcarán el ritmo en el sector. Quienes serán la referencia […]

Leer más