En los últimos tiempos he hablado mucho y mal de R en los «ambientes». El problema de siempre puede terminar con la paciencia de cualquiera, la manipulación de datos con R cuando superamos un GB puede acabar con la paciencia de este viejo dinosaurio. Viejo por usado no por mi edad, y dinosaurio por anticuado, aunque me gustaría recordar que los dinosaurios fueron capaces de sobrevivir 65 millones de años. En realidad soy un mainframe, usado, superviviente e imprescindible y me gusta R. Desde el año 2001 sé que el futuro de la gestión de la información pasa por él. Por este mismo motivo soy uno de los tipos que más ha luchado por divulgar las bondades y, sobre todo, las posibilidades que nos ofrece. Pero de verdad me gusta R porque, bajo mi punto de vista, el principal objetivo de todos aquellos que gestionamos datos tiene que ser la rentabilidad. ¡Chimpún!
Yo no digo que SAS o SPSS sean mejores ni peores que R. Son más caros. Y nosotros cada vez somos más caros. Necesitamos sistemas de información estructurados en data marts de producción, herramientas de decenas de miles de euros para realizar el la transformación de los datos y otros miles para hacer árboles y regresiones logísticas y por si fuera poco tenemos que sufrir a los «preventa» de las herramientas comerciales diciéndonos -«sin mi herramienta no podrás trabajar y si quieres trabajar con matrices o modelos de tal necesitas unos pocos más de miles«- Yo creo que nadie se ha parado a pensar que costamos más de lo que aportamos. Sin embargo somos los que reportamos a los directores generales, directamente. ¿Y qué le reportamos? Consultas y cuanto más sencillas mejor si añades una dimensión a esa consulta más compleja que la provincia su secretaria te devolverá escaneado un documento escrito con las anotaciones del excelentísimo: «esto no lo entiendo«, «qué significa segmento«. ¿Para el 90% de nuestro trabajo necesitamos gastarnos tanta pasta? No y R-equeteno.
¡Oiga usted caballerete!, R no puede con 5 millones de clientes y SAS o Clementine si. De acuerdo, continúa trabajando con SAS, yo no te digo que prescindas de él, piensa para que lo utilizas, optimiza el gasto en módulos. Para tu trabajo estadístico cuentas con R. ¿Todos tus modelos estadísticos necesitan tus 5 millones de clientes? Evidentemente no y R «se traga» muchos registros y muchas variables. En el futuro será un software capaz de hacer frente a las herramientas comerciales pero de momento se puede complementar perfectamente con ellas y así mejorar los gastos, mejorar el ROI ese tan de moda en los últimos tiempos. No hablo de transformar por completo los departamentos de data mining, inteligencia de clientes, análisis comercial,… hablo de pararnos a pensar si es posible complementar nuestro trabajo con R y/o si es necesario gastarnos muchos miles de euros en herramientas comerciales que pueden ser sustituidas y mejoradas por software libre.
Un ejemplo concreto, mi datamart en Oracle, trabajo con Enterprise Guide al servidor y tengo una licencia de Clementine en local para la realización de modelos más complejos. Bien, dejo el Oracle (este si que es imprescindible, podemos vivir sin música pero no sin Oracle) pero me creo un esquemita para mis usuarios de SAS de este modo me ahorro el servidor de SAS y me cepillo el Enterprise Guide que es un entorno poco amigable. Empleo el motor de Oracle para la realización de consultas más complejas y en SAS tengo Base, Stat, la vergonzosa castaña del Graph y Access to Oracle. Ya estoy ahorrando pasta y por si fuera poco me cuesta lo mismo realizar un spool de SAS a Clementine que de SAS a R y me abro a una mayor cantidad de posibilidades y no me limito a una sóla licencia en una sóla máquina. Donde antes costábamos 120.000, así por encima, ahora costamos 80.000 La reducción de costes nos permite contratar consultoría que nos realice herramientas R a nuestra medida y en menos de 3 años este esquema es más rentable que el anterior y seguirá mejorando.
R no cuesta dinero. Dinero hay que gastarse, pero no tanto. Y si pongo WPS… rvaquerizo@analisisydecision.es
Ahí estamos, muy bien.
Tengo por ahí un libro sobre manipulación de datos con R que te vendría muy bien. Debería poner un enlace en mi blog para que, con la venia de la ministra, la gente se lo descargase. Y que si le gusta, se compre el libro original, claro.
Pon el link Carlos. Se me está ocurriendo un manual de tratamiento de datos con R que puede ser interesante. Algo en la línea de http://sas-and-r.blogspot.com/ pero muy orientado a la transformación de datos.
Un planteamiento interesante y posibilista, ¿y qué hay de proyectos como Rapidminer, knime, orange? Con volúmenes de datos moderados dan bastante juego, sobre todo Rapidminer. ¿Habéis tenido oportunidad de testarlos directamente sobre BBDD gordas y «brutas»?
Por otro lado, no desesperemos, que los excelentísimos de este mundo acabarán aprendiendo y acostumbrándose a trabajar con conceptos como segmento de clientes ;-).
La verdad es que no puedo estar mas de acuerdo, R es cierto que por ahora no lo puede hacer todo, pero eso si, a nivel estadístico no hay cosa que yo me pueda imaginar que no se pueda hacer con él; no olvidemos que en principio R es una herramienta estadística, el problema es que nos hemos dado cuenta que con el volumen de datos que tenemos actualmente que tratar la estadística y el tratamiento de datos que podemos hacer con R se nos preseta como una solución perfecta.
Fíjate que frase de botellín en mano: «Estadísticamente hablando no hay mejor herramienta que R». Haced caso al viejo dinosaurio, R es el futuro, ya lo dije allá por el 2000 (o 2001).