SAS vs WPS. Diferencias de precio

Mayo 17th, 2013 por rvaquerizo

Minequest tiene una actualización de los costes en software si se utiliza SAS o se utiliza WPS. Como vemos es sustancialmente más económico emplear WPS. Y si hablamos de instalación en cliente/servidor la diferencia se incrementa. En breve hablaré de las posibilidades estadísticas que ofrece WPS. De todos modos pasaros por su web y veréis los nuevos procedimientos que tiene la V3.

Manual para realizar mapas en Excel con archivos SVG

Mayo 17th, 2013 por rvaquerizo

Nueva documentación que nos ha mandado nuestro compañero Manel Pla. Se trata de un manual para la creación de mapas en Excel con el método del que ya hablamos una vez en el blog. El resultado del trabajo de Manel ya lo conocéis. A continuación tenéis el enlace con la descarga del manual:

Manual de mapas en color para Excel

Con colaboración si que se puede dotar de más contenido al blog. Muchas gracias Manel.

 

Tags:

Video resumen del III Encuentro del Sector Seguros

Mayo 15th, 2013 por rvaquerizo Imagen de previsualización de YouTube

Interesante video que resume el III Encuentro del Sector Seguros en España. Pocos de los entrevistados usan el tiempo futuro y probablemente lo hagan por precaución. Me gusta que se hable de la solvencia, resultados técnicos, gestión de riesgos o suficiencia de prima. También se habla de low cost pero se trata como algo coyuntural. Me sorprende que no se hable de la sostenibilidad de las pensiones.

Trabajando con factores en R. Attach frente a within

Mayo 14th, 2013 por rvaquerizo

Un ejemplo de trabajo con datos en R. Transformamos factores de dos formas distintas. Por un lado empleamos within con recode de la librería car y por otro lado empleamos el mítico attach.

Manejo de datos con within:

datos library(car)
datos prog id reconocimientos reconocimientos2 = recode(num_awards,"0='Sin renococimiento';1='1 reconocimiento';
else='Más de un reconocimiento'")
})

Manejo de datos con attach/detach:

attach(datos)
datos$math_cat[math < 50 ] <- "D" datos$math_cat[math >= 50 & math < 60] <- "C" datos$math_cat[math >= 60 & math < 75] <- "B" datos$math_cat[math >= 75] <- "A"
datos$math_cat detach(datos)

No voy a entrar en que es más óptimo, tarda menos y demás. En mi opinión es mejor utilizar within pacece más "pulcro" y la verdad es que la función recode nos facilita mucho el trabajo pero como siempre tenemos múltiples posibilidades con R, por eso es R. Saludos.

Tags: , ,

Búsquedas de SQL frente a búsquedas de Hadoop

Abril 30th, 2013 por rvaquerizo

Ese gráfico está sacado de Google Trends. Representa la comparativa entre las búsquedas SQL y Hadoop en Google. La caída del SQL frente al ligero ascenso del Hadoop. ¿Llegarán a converger estás dos líneas? Seguramente no. Hadoop parará su ascenso, pero SQL no parará su descenso. A qué esperas para dejar de ser un dinosaurio.

Mapa de Catalunya en Excel por comarcas

Abril 29th, 2013 por rvaquerizo

Nuevo mapa en Excel a la colección de esta web. Se trata de un mapa de Cataluña por comarcas que funciona a las mil maravillas y que nos ha pasado nuestro lector Manel Pla. Hay que reconocer que es un trabajo excelente, muy trabajado y sencillo de utilizar, incluso podéis pintar distintas medidas. Seguro será de mucha utilidad.

Además de este gráfico Manel también nos ha pasado un mapa de Barcelona que colgaré en los próximos días. La verdad es que con estos lectores da gusto tener el blog.

DESCARGAR EL EXCEL CON EL MAPA POR COMARCAS:

Mapa Catalunya per comarques

Tags:

Lectura conjunta de “Analyzing Linguistic Data”

Abril 25th, 2013 por rvaquerizo

Mi compañero y amigo Carlos Gil junto con Victor Peinado van a iniciar un interesante proyecto. Un grupo de lectura del libro Analyzing Linguistic Data: A practical introduction to Statistics desde aquí nos hacemos eco de este proyecto que podéis seguir desde aquí.

El calendario del curso es:

  • An Introduction to R: (1 semana, del 6/05 al 12/05)
  • Graphical Data Exploration: (1 semana, del 13/05 al 19/05)
  • Probability Distributions: (1 semana, del 20/05 al 26/05)
  • Basic Statistical Methods: (2 semanas, del 27/05 al 9/06)
  • Clustering and Classification: (2 semanas, del 10/06 al 23/06)
  • Regression Modeling: (2 semanas, del 24/06 al 7/07)
  • Mixed Models: (2 semanas, del 8/07 al 21/07)

Será todo un éxito, como las anteriores convocatorias. Saludos.

Mosaic plot con R

Abril 23rd, 2013 por rvaquerizo

Los gráficos de mosaico (mosaic plot) me gustan cada vez más. Hoy quería confesaros una cosa, no me gustan los gráficos. Sé que en esta bitácora electrónica hay muchos ejemplos de gráficos y muchos trucos referente a ellos. Pero siempre prefiero un dato representado en una tabla. Después de esta confesión voy a rebatirme a mí mismo. Es muy complicado ver algo en una tabla de contingencia cuando tenemos 3 o cuatro dimensiones. Sin embargo con un mosaic plot como el que tenemos arriba somos capaces de estudiar cruces de frecuencia para 3-4 dimensiones. Para hacerlo empleamos R, en concreto el paquete vcd. Para ilustrar el ejemplo con datos nos vamos a la web de un conocido libro para el uso de GLM en seguros. No entramos en muchos detalles, el código es muy simple, si tengo ocasión lo complicaré:


library(vcd)
sini = read.csv("http://www.businessandeconomics.mq.edu.au/our_departments/Applied_Finance_and_Actuarial_Studies/acst_docs/glms_for_insurance_data/data/claimslong.csv")
tabla = ftable(sini$agecat, sini$valuecat, sini$period,
dnn = c("Edad", "Valor", "Antiguedad"))
tabla
mosaic( ~Edad+Valor+Antiguedad, data=tabla)

En este caso pintamos un objeto ftable. Podríamos pintar directamente los datos o un objeto table, esto es importante porque podemos cocinar nuestros datos directamente con SAS, Excel, WPS,… y pasarlos a R para realizar el gráfico de mosaico. Seguramente conocíais este tipo de gráficos, pero el ahora escribiente no y se ha quedado prendado de ellos.

El seguro de Salud suma y sigue

Abril 18th, 2013 por rvaquerizo

Si nos damos una vuelta por ICEA podremos sacar la tabla que tenemos arriba (espero que no se enfaden conmigo por sacarlo tal cual, no he cambiado ni los formatos). Vemos que a lo largo de 2012 el seguro directo en España está sufriendo, especialmente en Autos, casi todos los ramos registran pérdidas de prima a excepción de Hogar y Salud. El tema de Hogar lo trataremos en otra entrada con más cuidado, es un ramo que tiene mucho recorrido debido a que la penetración en España todavía es muy baja, además tendremos que escribir sobre revalorización de capitales, la famosa REVA. Hoy nos centraremos en la otra gran estrella de la tabla que nos ofrece ICEA, el Seguro de Salud.

En España se está evolucionando hacia un sistema mixto de salud y esto provoca que sea un ramo de seguros con mucho recorrido. Se están abriendo centros privados para atender a la demanda y diferentes estudios indican que se perciben como un complemento a la Seguridad Social, también se valora especialmente como un beneficio social de los trabajadores. Por ello el seguro de Salud tanto de forma individual como en colectivos está empezando a tomar tanto peso dentro del mercado asegurador español.

Para este año 2013 no se debe esperar un crecimiento tan alto como en 2012 debido fundamentalmente a la continuación de la crisis económica. Es muy probable que no se permita desgravar el este tipo de seguros, actualmente si lo hace para autónomos y PYMES, un movimiento de este tipo sería el “espaldarazo” definitivo para el seguro de Salud. A lo largo de este año se deberían ganar clientes pero no debería de notarse tanto en prima, no porque exista una guerra de precios (como pueda ocurrir en otros ramos), sino por el crecimiento de los seguros colectivos frente a los seguros individuales. Este crecimiento puede ser uno de los principales enemigos del ramo. La colectivización implica pérdida de rigor técnico. Si vemos los resultados que expuso Flavia Rodríguez en 2011 el ramo de Salud tiene un resultado técnico interesante por ello las compañías pueden apretarse en esa negociación colectiva y este puede ser uno de los enemigos a futuro de este ramo que es el segundo en importancia dentro de No Vida.

Tags:

Analisis cluster con SAS. La importancia de las semillas en las k-medias

Abril 15th, 2013 por rvaquerizo

El PROC FASTCLUS en SAS nos permite realizar análisis de agrupamiento dirigido mediante el algoritmo de las k-medias. Este algoritmo tiene algunos problemas pero nos puede servir para agrupar de forma multivariante observaciones. Es rápido, sencillo de explicar y con algunas lagunas no funciona mal. Como aproximación a nuestras segmentaciones puede ser muy práctico. Hoy se va a utilizar para identificar a los clientes más complicados de segmentar, a aquellas observaciones que quedan en las zonas grises. (http://www.datanalytics.com/blog/2011/08/03/clustering-iii-sobresimplificacion/)
Estas zonas grises en muchos casos son más importantes que la segmentación en sí. Si estamos con un problema de taxonomía (clasificar especies) puede ser menos importante, pero si clasificamos inversiones, clientes,… ¿qué pasa con aquellos que no sabemos ubicar? Escribimos segmentar en un buscador y tenemos esta imagen:

¡Qué sencillo es segmentar! Cada muñeco queda en su pelota, Lee el resto de esta entrada »

Tags: , ,