Archivos de la categoría Consultoría

Mapa del mundo en Excel

Un mapa del mundo en Excel preparado para poner datos de la Base de Datos de la UNESCO. Está sacado de una web, cuando encuentre el link os lo pongo porque lo he perdido. Además al César lo que es del César. Sobre el fichero Excel que me descargué realicé diversas modificaciones para mejorar los resultados y darle simplicidad. Hay una hoja de datos que es donde debéis pegar los datos (preferiblemente) por otro lado está la hoja Mapa que contiene el mapa sobre el que podéis realizar las modificaciones. En esta hoja están los datos sobre los que se hace la jerarquía. La gama de colores que utiliza este mapa es de gris a rojo. Esto podéis cambiarlo vosotros mismos, en esta web se han dado pistas sobre cómo hacerlo.  No es correcto darlo todo hecho pero jugando con formatos condicionales y con esas pistas podéis obtener un mapa espectacular.

Aquí podéis descargar el mapa.

Para actualizar los colores tenéis que ejecutar esta simple macro:

Sub cambia_color()
Dim pais As String
Dim i As Integer
Dim color As Long
Dim myShape As Shape
For i = 2 To 190
pais = Cells(i, 26)
color = Cells(i, 30)
Set myShape = Sheets(1).Shapes(pais)
myShape.Fill.ForeColor.RGB = color
Next i
End Sub

En cuanto a los datos que se representan en el mapa. Tasa de mortalidad infantil en el mundo. Los países más oscuros o bien no disponen de datos o bien no han cruzado con los datos de la UNESCO. Se podrá mejorar el resultado. Algo más subjetivo, no sé como consentimos este rojo predominante en África. Será que sin ese rojo yo no podría escribir cosas como esta… Saludos.

Analisis cluster con SAS. La importancia de las semillas en las k-medias

El PROC FASTCLUS en SAS nos permite realizar análisis de agrupamiento dirigido mediante el algoritmo de las k-medias. Este algoritmo tiene algunos problemas pero nos puede servir para agrupar de forma multivariante observaciones. Es rápido, sencillo de explicar y con algunas lagunas no funciona mal. Como aproximación a nuestras segmentaciones puede ser muy práctico. Hoy se va a utilizar para identificar a los clientes más complicados de segmentar, a aquellas observaciones que quedan en las zonas grises. (http://www.datanalytics.com/blog/2011/08/03/clustering-iii-sobresimplificacion/)
Estas zonas grises en muchos casos son más importantes que la segmentación en sí. Si estamos con un problema de taxonomía (clasificar especies) puede ser menos importante, pero si clasificamos inversiones, clientes,… ¿qué pasa con aquellos que no sabemos ubicar? Escribimos segmentar en un buscador y tenemos esta imagen:

¡Qué sencillo es segmentar! Cada muñeco queda en su pelota, Sigue leyendo Analisis cluster con SAS. La importancia de las semillas en las k-medias

Trucos SAS. Medir la importancia de las variables en nuestro modelo de regresión logística

Hoy quería proponeros una forma poco ortodoxa de medir la importancia de las variables en un modelo de regresión logística con SAS. La cuestión es: dado un modelo de regresión logística crear un ranking con las variables más importantes dentro del modelo. Para esta tarea recomiendo el uso de random forest, pero puede ser imposible disponer de un software que realice este tipo de modelos. Imaginemos un caso concreto, disponemos de SAS STAT y nos da reparo trabajar con R. Para este caso podemos emplear el siguiente truco. El AIC (criterio de información de Akaike) es un estadístico que relaciona el cociente de la verosimilitud con el número de parámetros del modelo que ajustamos. Cuanto menor sea este cociente mejor será nuestro modelo. Si eliminamos una variable del modelo ¿cuánto empeora este modelo? Esa será la filosofía que emplearemos para analizar la importancia de las variables presentes en nuestro modelo. En la línea habitual hacemos un ejemplo para que podáis copiar y pegar en vuestro SAS:

Vamos a crear un dataset preparado para hacer una regresión logística perfecta donde en un 10% de los casos sucede un evento:

*REGRESION LOGISTICA PERFECTA;
data logistica;
do i=1 to 10000;
  normal1=rannor(8);
  normal2=rannor(45);
  normal3=rannor(32);
  normal4=rannor(7);
  normal5=rannor(98);
  unif1=ranuni(2);
  unif2=ranuni(21);
  unif3=ranuni(22);
  unif4=ranuni(23);
  unif5=ranuni(24);
  prob=1/(1+exp(-(-3.16+0.1*normal1-0.2*normal2+0.3*normal3-0.4*normal4+0.5*normal5+
	   0.1*unif1+0.2*unif2+0.3*unif3+0.4*unif4+0.5*unif5)));
  sucede=ranbin(8,1,prob);
  *TRAMIFICAMOS LAS VARIABLES;
  normal1=round(rannor(8),0.1);
  normal2=round(rannor(45),0.2);
  normal3=round(rannor(32),0.3);
  normal4=round(rannor(7),0.4);
  normal5=round(rannor(98),0.5);
  unif1=round(ranuni(2),0.1);
  unif2=round(ranuni(21),0.2);
  unif3=round(ranuni(22),0.3);
  unif4=round(ranuni(23),0.4);
  unif5=round(ranuni(24),0.5);
  output;
end;
drop i;
run;

title "Logistica con un 10% aprox de casos positivos";
proc freq data=logistica;
tables sucede;
quit;

Incialmente necesitamos las variables presentes en el modelo y el ajuste inicial, también un conjunto de datos SAS con los nombres de las variables. Esto es un poco chapuza, pero si seguís el blog podéis hacer este código mucho más elegante [no os lo voy a dar todo hecho] Sigue leyendo Trucos SAS. Medir la importancia de las variables en nuestro modelo de regresión logística

Trucos Excel. Gráficos dot plot, representando un ranking gráficamente

Los gráficos de puntos son muy prácticos para representar de una forma visual rankings (por ejemplo). En Excel su realización no es inmediata como con otras herramientas (R por ejemplo). Para ilustrar el ejemplo se van a presentar los 20 primeros puestos de la lista TIOBE de mayo de 2012 (la entrada estaba en la nevera).   Entramos en la lista y sin más copiamos y pegamos los datos de tabla HTML a tabla Excel:

 

Es recomendable dar un formato más adecuado a los datos para representarlos, tened cuidado con la configuración regional, eliminad imágenes que pueden causar problemas, quedaros con los datos que deseáis representar,...

Cuando ya tenemos unas tablas adecuadas el siguiente paso es insertar un gráfico de dispersión con la posición y la medida que deseamos que aparezca en el gráfico, en este caso el rating de TIOBE Sigue leyendo Trucos Excel. Gráficos dot plot, representando un ranking gráficamente

Sentencia Test-Achats

 sentencia_test_achats_1.PNG

A pesar del título no voy a hablar del principio de igualdad de trato entre hombres y mujeres en el acceso a bienes y servicios y su suministro que regula los factores actuariales para tarificar en función del sexo. Sólo me he ido a Rastreator.com y he tarificado a una mujer de 32 años con un vehículo de los más vendidos. La fecha de hoy es 06/07/2012. En diciembre de 2012 volveré a recuperar esta entrada y hablaré del derecho. Saludos.

Lecciones de economía de un ignorante. Los bancos pierden dinero para favorecer a unos y luego los salvamos todos

Si pintamos con Excel una línea con el Euribor a 6 meses y otra línea con el interés medio a un año de los depósitos bancarios. Tenemos:

euribor-frente-interes-medio-depositos-a-un-ano.PNG

La fuente de datos es:

  • http://sdw.ecb.europa.eu/quickview.do?SERIES_KEY=143.FM.M.U2.EUR.RT.MM.EURIBOR6MD_.HSTA
  • http://sdw.ecb.europa.eu/quickview.do?SERIES_KEY=124.MIR.M.ES.B.L22.F.R.A.2250.EUR.N

Los datos del interés medio los suministra el Banco de España. Sé que no son datos 100% comparables pero sirve para este argumento. Hasta 2009 los intereses que daban los bancos estaban por debajo del precio del dinero. DESPUÉS LOS BANCOS ESTÁN DANDO DINERO A PÉRDIDAS. Por problemas de liquidez, por problemas de aprovisionamiento, batallas de pasivo, por lo que sea,… PERO ESTÁN PERDIENDO DINERO Y LO SABEN, los márgenes son negativos. En principio los beneficiados son los clientes porque están dando intereses por encima del precio del dinero. Pero la insensatez al final la pagamos todos, tanto el que se beneficia por los altos intereses (tiene dinero) como el que no se beneficia (no tiene un duro) y por si fuera poco suben comisiones, se endurecen las condiciones de crédito y demás. Luego acudimos a las subastas de liquidez y a los fondos de reestructuración de idioteces varias, mentimos en nuestras cuentas de resultados y ¡ya está!

¿Y esto quién lo ha permitido?

Sentencia del Tribunal de Justicia de la UE sobre el caso WPS y SAS

El caso de WPS y SAS por fin tiene un final. World Programing Software ha vencido (por fin) al todo poderoso SAS Institute Inc. La sentencia establece que:

De este modo, procede señalar que no puede haber infracción del derecho de autor sobre el programa de ordenador cuando, como sucede en el caso de autos, el adquirente legítimo de la licencia no ha tenido acceso al código fuente del programa de ordenador correspondiente a esa licencia, sino que se limitó a estudiar, observar y verificar ese programa con el fin de reproducir su funcionalidad en un segundo programa.

WPS no tiene el código fuente de SAS por lo tanto está dentro de la ley y cuesta mucho menos, esto último no lo dicen, lo digo yo. También hay algún aspecto sobre el software propietario que es muy interesante pero tengo que estudiar si pone lo que pone:

40 En efecto, tal como el Abogado General señala en el punto 57 de sus conclusiones, admitir que el derecho de autor pudiera proteger la funcionalidad de un programa de ordenador supondría ofrecer la posibilidad de monopolizar las ideas, en perjuicio del progreso técnico y del desarrollo industrial.

¿Cómo se puede interpretar este artículo?

En fin, aunque comercialmente la gente de WPS deja mucho que desear ya pueden decir que tienen un software 100% legal.

Data mining, Business intelligence (y/o la nube)

Hace tiempo que quería publicar una entrada en respuesta a estos comentarios escritos en el blog. Se trata de analizar las búsquedas en Google a través de Google Trends de los términos: Business Intelligence, Data Mining, Cloud Computing y NOSQL. El resultado es más que interesante:

busquedas_google.png

En rojo tenemos Data Mining, en azul tenemos Business Intelligence, en naranja Cloud Computing y en verde NOSQL. A la vista de este gráfico cabe preguntarse ¿es R en la nube el futuro de la profesión? 

En la regresión logística ¿el sobremuestreo es lo mismo que asignar pesos a las observaciones?

Hoy vamos a volver sobre el tema del sobremuestreo. Respondemos a un lector, Roberto, que hace mucho tiempo planteó una duda al respecto. La duda se puede resumir: En un modelo logístico, ¿equivale entrenar un modelo con las observaciones sobremuestreadas a entrenar el modelo poniendo un peso a cada observación? Esta cuestión nunca me la había planteado. Siempre había realizado un sobremuestreo de las observaciones adecuando la población de casos negativos a la población de casos positivos. Si estás habituado a trabajar con Enterprise Miner de SAS es habitual asignar pesos a las observaciones para realizar el proceso de sobremuestreo. ¿Obtendremos distintos resultados?

Vamos a estudiar un ejemplo con SAS y analizar que está pasando:

*REGRESION LOGISTICA PERFECTA;
data logistica;
do i=1 to 100000;
  x=rannor(8);
  y=rannor(2);
  prob=1/(1+exp(-(-5.5+2.55*x-1.2*y)));
  z=ranbin(8,1,prob);
  output;
end;
drop i;
run;

title "Logistica con un 5% aprox de casos positivos";
proc freq data=logistica;
tables z;
quit;

Tenemos un conjunto de datos SAS con 100000 observaciones aleatorias y dos variables independientes (x e y) con distribución normal y creamos una variable dependiente z que toma valores 0 o 1 en función de la probabilidad de un modelo logístico. Es decir, podemos modelizar una regresión logística perfecta con parámetros Z=5.5 - 2.55x + 1.2y Esta distribución nos ofrece aproximadamente un 5% de casos positivos. A ser un modelo logístico perfecto Sigue leyendo En la regresión logística ¿el sobremuestreo es lo mismo que asignar pesos a las observaciones?

Begraphic un add in para Excel muy interesante

 

Me he descargado de Begraphic un add in gratuito en su versión lite para Excel que nos permite realizar algunos gráficos interesantes como velocímetros o mapas. También tiene la posibilidad de realizar dashboard en hojas Excel. Todas estas tareas las realizamos mediante menús de forma bastante sencilla. En realidad es un add in que nos permite vincular las características de formas de Excel a celdas, ¿a qué os suena esto? Efectivamente, a los mapas de Excel que publico periódicamente en este sitio. Pero en este caso la gente de Begraphic pone a vuestra disposición en este enlace unos cuantos mapas más.

¿A qué estás esperando para registrarte y descargarte este complemento de Excel?

En futuras entradas trabajaremos con él, pero si alguien se anima que nos cuente su experiencia.