Archivo de la etiqueta:

Porque me gusta R

En los últimos tiempos he hablado mucho y mal de R en los “ambientes”. El problema de siempre puede terminar con la paciencia de cualquiera, la manipulación de datos con R cuando superamos un GB puede acabar con la paciencia de este viejo dinosaurio. Viejo por usado no por mi edad, y dinosaurio por anticuado, aunque me gustaría recordar que los dinosaurios fueron capaces de sobrevivir 65 millones de años. En realidad soy un mainframe, usado, superviviente e imprescindible y me gusta R. Desde el año 2001 sé que el futuro de la gestión de la información pasa por él. Por este mismo motivo soy uno de los tipos que más ha luchado por divulgar las bondades y, sobre todo, las posibilidades que nos ofrece. Pero de verdad me gusta R porque, bajo mi punto de vista, el principal objetivo de todos aquellos que gestionamos datos tiene que ser la rentabilidad. ¡Chimpún!

Yo no digo que SAS o SPSS sean mejores ni peores que R. Son más caros. Y nosotros cada vez somos más caros. Necesitamos sistemas de información estructurados en data marts de producción, herramientas de decenas de miles de euros para realizar el la transformación de los datos y otros miles para hacer árboles y regresiones logísticas y por si fuera poco tenemos que sufrir a los “preventa” de las herramientas comerciales diciéndonos -“sin mi herramienta no podrás trabajar y si quieres trabajar con matrices o modelos de tal necesitas unos pocos más de miles“- Yo creo que nadie se ha parado a pensar que costamos más de lo que aportamos. Sin embargo somos los que reportamos a los directores generales, directamente. ¿Y qué le reportamos? Consultas y cuanto más sencillas mejor si añades una dimensión a esa consulta más compleja que la provincia su secretaria te devolverá escaneado un documento escrito con las anotaciones del excelentísimo: “esto no lo entiendo“, “qué significa segmento“. ¿Para el 90% de nuestro trabajo necesitamos gastarnos tanta pasta? No y R-equeteno.

¡Oiga usted caballerete!, R no puede con 5 millones de clientes y SAS o Clementine si. De acuerdo, continúa trabajando con SAS, yo no te digo que prescindas de él, piensa para que lo utilizas, optimiza el gasto en módulos. Para tu trabajo estadístico cuentas con R. ¿Todos tus modelos estadísticos necesitan tus 5 millones de clientes? Evidentemente no y R “se traga” muchos registros y muchas variables. En el futuro será un software capaz de hacer frente a las herramientas comerciales pero de momento se puede complementar perfectamente con ellas y así mejorar los gastos, mejorar el ROI ese tan de moda en los últimos tiempos. No hablo de transformar por completo los departamentos de data mining, inteligencia de clientes, análisis comercial,… hablo de pararnos a pensar si es posible complementar nuestro trabajo con R y/o si es necesario gastarnos muchos miles de euros en herramientas comerciales que pueden ser sustituidas y mejoradas por software libre.

Un ejemplo concreto, mi datamart en Oracle, trabajo con Enterprise Guide al servidor y tengo una licencia de Clementine en local para la realización de modelos más complejos. Bien, dejo el Oracle (este si que es imprescindible, podemos vivir sin música pero no sin Oracle) pero me creo un esquemita para mis usuarios de SAS de este modo me ahorro el servidor de SAS y me cepillo el Enterprise Guide que es un entorno poco amigable. Empleo el motor de Oracle para la realización de consultas más complejas y en SAS tengo Base, Stat, la vergonzosa castaña del Graph y Access to Oracle. Ya estoy ahorrando pasta y por si fuera poco me cuesta lo mismo realizar un spool de SAS a Clementine que de SAS a R y me abro a una mayor cantidad de posibilidades y no me limito a una sóla licencia en una sóla máquina. Donde antes costábamos 120.000, así por encima, ahora costamos 80.000 La reducción de costes nos permite contratar consultoría que nos realice herramientas R a nuestra medida y en menos de 3 años este esquema es más rentable que el anterior y seguirá mejorando.

R no cuesta dinero. Dinero hay que gastarse, pero no tanto. Y si pongo WPS… rvaquerizo@analisisydecision.es