Hoy voy a hablar de la competencia, siempre muy deportiva, de este blog. Espero que Raúl me excuse y entienda que no quiero alimentar contadores de visitas ajenos a expensas de los propios sino establecer relaciones de buena vecindad con otros proyectos interesantes y complementarios.
El primero, El blog de los erreros, del que tuve noticia hablando con su autor mientras comíamos en la cantina de la Universidad de Murcia en el marco de las Jornadas de R (las primeras de una serie perpetua, quede dicho). Está orientado al mundo de R y contiene trucos, noticias y aplicaciones estadísticas (desarrolladas y resueltas, claro está, con R).
Del segundo, GMK, o, más descriptivamente, El blog del geomárketing y el data mining, he de confesar vergonzosamente, no tuve noticia hasta no hace mucho: aterricé en él de casualidad mientras buscaba algo que allí no encontré. Pero lo coleccioné enseguida en mi pestaña de Estadística de mi cuenta de Netvibes junto con otros 16 blogs del mismo tema. Trata de los dos asuntos (hasta cierto punto interrelacionados) que anuncia. De uno, el geomárketing, aunque me parece apasionante, casi nada sé. Pero es revelador constatar cómo desde el aire, nos triangulan, categorizan, y hay quienes saben aprovechar esas inercias borreguiles y cotidianas nuestras para ubicar un Mercadona en la esquina adecuada de forma que, indefectiblemente, acabamos entrando. O lo contrario.
El segundo tema, el de la minería de datos, me es más propio, es evidente que está tratado desde la trinchera y motivado de una enorme inquietud y curiosidad intelectual. Es de recomendadísima lectura.
Tanto erreros como GMK son de obligada lectura. De erreros soy seguidor desde hace bastante tiempo y de GMK más recientemente. En breve aparecerán entre los enlaces de esta página.
Me ha gustado este mensaje. Voy a escribir una entrada en la que resuma cuales son mis lecturas habituales y su motivo. Haré una revisión de Euribor, Gurusblog, Ensilicio, erreros, GMK, Inteligent Enterprise, Decission Stats,…
Por otro lado tengo que hablar con Francisco Ortega de GMK sobre modelos de regresión local.
Nada que nosostros también os tendremos que dedicar un post como dios manda.
A ver si entre todos conseguimos hacer una comunidad bloguera sobre análisis de datos que ayude a todos los técnicos y estudiantes de habla hispana.
Raúl envía un email con lo que quieras, tengo algo oxidado el tema desde la uni pero por casa dispongo de cierta bibliografía.
Francisco te contesto por aquí para ver si otros lectores se animan.
El tema del empleo de regersiones locales es el siguiente: Buscar perfiles, propensiones o «probabilidades de» en diversas zonas y representarlas. De forma que, por ejemplo, tuvieramos probabilidad de morosidad por sección censal, calle o coordenada.
Hace tiempo trabajé con nodos de telefonía y pensamos una herramienta para ayudar a los comerciales y si pudieramos pintar mapas o planos con ayuda de las herramientas de Google tendríamos una solución muy potente. Otra utilidad práctica, la optimización de la red de oficinas de una entidad financiera, no cerremos oficinas en función de sus resultados actuales, estudiemos su potencialidad.
Es algo que siempre tengo en mente.
De los problemas que planteas el de riesgo de morosidad ya está hecho por Arvato Services (http://www.arvato-si.com/), incluso, en otro proyecto se llegó a predecir la facturación de cierta cadena de fraquicias a unos años vista de la apertura para la uvicación de nuevos puntos de venta con resultados satisfactorios.
Por otro lado tenemos un post sobre tipologías comportamentales georeferenciadas, que son la base para este tipo de proyectos (http://geomarketingspain.blogspot.com/2009/06/geomarketing-tipologias.html).
Me he puesto en contacto con mis antiguos compañeros de Arvato para ver si se animan a hacer un post extenso sobre el tema, explicando la soluciones que desarroyaron así como en que se basan.
De todas maneras el mayor problema de estos proyectos es tener la información necesaria, es muy complicado trabajar con datos espaciales y muchas veces no es suficiente con la desagregación a nivel de Sección Censal y no hablemos a nivel de municipio.
Otro problema importante es como definir el area de influencia de tu unidad de estudio, en si, depués de los datos, es el punto más importante, ya que de esta definición depende la información que verá tu modelo; una mala definición, aunque cuentes con suficinete información, puede dar al traste con tu proyecto. En si la estimación de tu area de influencia puede ser definido como un proyecto a parte.
Lo primero, sois proveedores nuestros pero este tema ya lo trataremos; lo entenderás con el Analytics. Muy interesante el link que envías. de hecho te planteabas la misma cuestión que yo:
«Con toda esta información podremos crear un modelo que prediga en función de la sección censal una variable objetivo, como por ejemplo el consumo de caramelos.
Así hemos creado un modelo que nos permite predecir un valor de venta de caramelos a las diferentes secciones censales donde no estamos implantados»
Hacemos modelos donde nuestras variable dependientes sean las coordenadas, empleamos regresiones locales porque partimos de una segmentación previa y al final obtenemos una «medida». Es tremendamente útil sobre todo a la hora de orientar acciones comerciales.
Hola,… Al hilo de esta discusión me surge una pregunta. Entiendo que sería muy impactante ver un mapa de Madrid (o BCN) al estilo de los del metro pero coloreado en función de la tasa de morosidad del barrio.
Pero el problema interesante (o práctico) suele ser el contrario: dada una persona (cliente), estimar su probabilidad de impago. Puede que en tal caso se quiera (o resulte conveniente) enriquecer el perfil del cliente con información agregada y promedidada de sus vecinos.
Pero no veo un vínculo directo entre «mi vecino es moroso» y «yo soy moroso» sino indirecto a través de variables comunes qué sí que pueden ser determinantes (mi vecino tenía un muy mal trabajo, luego vivía en una casa barata e igual de mala que la mía, luego yo, es probable, tenga también un mal trabajo).
Exactamente, la morosidad es en función de vinculos indirectos.
En el caso de la morosidad las coordenadas del cliente tienen más relevancia de lo que nos imaginamos y pueden sernos útiles para prevenirla.
Si estudiamos comportamientos de pago hay zonas tienden más a «vivir al límite» estoy convencido que si llegamos más allá hay barrios que tienen el mismo comportamiento en sus pagos. De esto sólo tengo una impresión, nunca he trabajado con ello, solo he estudiado comportamientos de pago a nivel de provincia.
Por otro lado tenemos la zonificación en el sector asegurador. La mayoría de las tarifas de las aseguradoras van a nivel de provincia y es evidente que no debería ser igual una garantía de robo para alguien que reside en una urbanización de lujo que para alguien que reside en el centro de una gran ciudad. ¿Conocéis la zonificación?
Lo de los vínculos directos e indirectos me ha recordado directamente esa frase de primero de carrera de «la correlación no implica causalidad». Evidentemente la ubicación geográfica no tiene una relación directa con la morosidad pero sí podría ser útil como sugiere Raúl como recurso para recoger de alguna manera esos vínculos indirectos. Yo he trabajado alguna vez con variables agregadas a nivel de sección censal en otros contextos y con resultados poco «vistosos» porque con la agregación se pierde bastante información. Aún así en determinadas aplicaciones pueden ser útiles. Quizá sería interesante probar algo tipo Kriging muestreando directamente clientes-socios-etc., que además podría resolver algunos problemas que tienen las secciones censales, como que puedes tener en una misma calle distintos tramos de distintas secciones censales, e incluso los números pares en una y los impares en otra… Francisco o Jesús, ¿Alguno ha probado algo de este tipo?
De todas formas vaya mierda de ejemplo que puse con la morosidad. Aunque ya os CONFIRMO que es más representativa de lo que nos podemos imaginar. ¡Viva la segunda vivienda en el Levante!
Nuevo ejemplo comercialización de fondos de inversión garantizados. Si el índice de capacidad económica funciona a las mil maravillas con propensiones a la compra. ¿Lo hará de igual modo las coordenadas del cliente? Es evidente que habrá secciones censales donde determinados productos tienen una mayor penetración, por ejmplo en Alcobendas tenemos la Moraleja.
Yo he hecho campañas de mailing de captación externa con soporte de datos georeferenciados (INE, Anuario de la Caixa, Home Type’s …)sobre listas frías (el listín telefónico por ejemplo) y la efectividad como mínimo se doblaba existiendo incremetos superiores a multiplicar la captación de la muestra control por más de 4.
Yo creo que lo del Kriging no funcionará, ya que las personas no nos movemos de manera muy lógica y está técnica se ideó para la estimación de yacimientos mineros, pero que conste que no lo he provado, hablo por pura intuición, si te animas a hacerlo ya nos dirás como te ha ido.
Sinceramente, creo que este tipo de problemas está más viculado a la calidad y cantidad de datos que tienes que a la técnica aplicada a la hora de modelizar.
hola
acaba de cruzar ese blog de datamining , veo que muys intersante . me gustaria que conocer mas blogs de datamining gracias