¿Google enemigo del open source?

Marzo 7th, 2010 por rvaquerizo

Carlos Gil ya habló de Hadoop hace algún tiempo y en su blog hizo referencia de nuevo a la gestión de información desestructurada por lo que despertó mi curiosidad sobre mapreduce y el procesado de datos en paralelo. Pero lo primero que me llamó la atención fue que Google no pusiera pegas sobre el "uso o aprovechamiento" de su algoritmo de mapreduce. Al fin y al cabo tras la salida a bolsa de Google en 2004 quedaba claro que era una empresa con un objetivo comercial. No seré yo quien critique este objetivo, son los mejores y punto. Peeeero en todo este proceso de aproximación a Hadoop y mapreduce me encuentro con esta noticia.

Insisto, Google es el mejor y tiene derecho a copar el 90% del mercado. Sin embargo, ¿no se estará pasando con esos objetivos comerciales? Esto parece un ataque frontal al open source. Es evidente que Hadoop (o algo de parecida filosofía) será el futuro de la gestión de la información, campo en el cual Google no es una referencia. ¿Os imagináis una herramienta de detección de fraude de Google? Nadie podrá analizar tantas transacciones como ellos, acabaría con el resto como va a pasar con los navegadores GPS, con la telefonía, los sistemas operativos,...

Yo soy proGoogle, pero son muchos los que opinan que son un peligroso monopolio, por lo que quiero seguir esta noticia y analizar que buscan con todo este proceso judicial. Bajo mi prisma han tocado la fibra a una parte muy amplia de la comunidad de la red, muchos que nos dedicamos a difundir, divulgar y compartir "conocimientos" vemos como, aquellos que fueron pioneros en esta tarea de compartir desde el garaje de su casa al final tienen un objetivo muy distinto del que tenían en cuando nacieron. Será la naturaleza humana.

Seguiré la noticia a ver en que queda. Google tiene razón jurídica pero su única intención es aumentar su capital.

Tags: , ,

Comparativa de Precio: WPS vs. SAS

Febrero 26th, 2010 por rvaquerizo

Tenía pendiente comparar el precio entre SAS y WPS. La consultora MineQuest ya lo ha hecho por mi. Y ha dejado el resultado plasmado en este documento. En fin, cada cual que saque sus propias conclusiones. Con lo que se puede ahorrar en licencias se puede llamar a Datanalytics (por ejemplo), implantaría la herramienta y podría hacer una auditoría y optimización de los procesos empleados, eso si Carlos no está en Sebastopol o más lejos.

Por cierto, a los compañeros de WPS: ¡¡Please, send me a new license!!

Tags: ,

Trucos Excel. Modificar la configuración regional con Visual Basic

Febrero 21st, 2010 por rvaquerizo

Con Visual Basic podemos modificar la configuración regional. Podemos crear macros en Excel que nos realicen esta tarea. De este modo si trabajamos con aplicaciones que tienen configuración americana podemos cambiar con una macro, pegar los valores y volver a cambiar la configuración. Para poner separador decimal "." y separador de miles "," tendremos que emplear el siguiente código:

Sub formato_americano()'' formato_americano Macro'
With Application
.DecimalSeparator = "."
.ThousandsSeparator = ","
.UseSystemSeparators = False
End With
End Sub

Es un excelente ejemplo de uso de Application. De forma análoga si deseamos volver a la configuración europea solo debemos emplear los separadores del sistema:

Sub formato_europeo() ' formato_americano Macro
With Application.UseSystemSeparators = True
End With
End Sub

Todo esto también lo podemos hacer desde el menú herramientas->opciones->internacional. Pero si creamos dos macros en nuestro libro personal y personalizando los menús asignamos dos botones a estas macros podemos copiar y pegar datos desde SAS a Excel (por ejemplo) sin tener que jugar con los formatos de SAS, podemos tener perfectamente tuneado nuestro Excel.

Está feo que lo diga yo, pero este truco Excel es impresionante y para todos aquellos que trabajamos con SAS o Res de gran utilidad. Si tenéis dudas o un trabajo a media jornada: rvaquerizo@analisisydecision.es

Saludos.

Tags: , , , , ,

¿Qué compañía está entre las 12 ‘Companies to Watch’ in 2010?

Febrero 18th, 2010 por rvaquerizo

Interesante datos de Intelligent Enterprise.

¿Qué empresa tenemos que seguir durante este 2010 en la categoría de BI?

 La lástima es que el BI está moribundo. En 2012 será un concepto obsoleto. Por cierto, R-project tiene que plantearse esa web de una vez por todas.

Monográfico. Análisis de Factores con R (una introducción)

Febrero 11th, 2010 por rvaquerizo

El análisis de factores es una técnica de reducción de datos: menor dimensión mayor portentaje de varianza. Distinguimos el análisis factorial exploratorio del análisis factorial confirmatorio en función del conocimiento del número de factores a obtener. Este análisis está muy relacionado con el análisis de componentes principales pero no buscamos explicar el mayor porcentaje de varianza a partir de combinaciones lineales de variables, buscamos conjuntos de variables comunes entre si. Este análisis supone que hay un factor intrínseco a las variables a combinar. El proceso a seguir para este tipo de análisis sería:

1. Estudio de la matriz de correlaciones
2. Análisis factorial y representación de los factores
3. Factores por individuo

En este enlace tenemos una detallada descripción de esta metodología. Lee el resto de esta entrada »

Un problema a WPS. Infile url no funciona

Febrero 7th, 2010 por rvaquerizo

ERROR: url is not a valid access method. The access method names are :       DDE, EMAIL

He encontrado una pega que no me gusta al WPS:

filename pepin url "http://news.google.es/news?q=banco santander&oe=utf-8&rls=org.mozilla:es-ES:official&client=firefox-a&um=1&ie=UTF-8&sa=N&hl=es&tab=wn";

data uno;
infile pepin;
run;

No se puede hacer en WPS. Desconozco si es necesario otro modulo, pero es un problema. Aun asi me sigue gustando mucho.

Lecciones de economía de un ignorante. “la Caixa” a colocar preferentes

Febrero 1st, 2010 por rvaquerizo

No tengo palabras, creía que eran rumores, estoy a punto de llorar. Hoy empiezan a colocar deuda subordinada otra vez en "la Caixa" y 2.000 millones ampliables a 3.000 nada menos:

http://www.abc.es/agencias/noticia.asp?noticia=252786

¿Qué probabilidades hay de quiebra de "la Caixa"? Ninguna, pero ahí no está el riesgo. La deuda subordinada como las participaciones preferentes no son una inversión exenta de riesgo. Si os lo digo yo a lo peor no os lo creéis pero si os lo dicen desde rankia.com empezaréis a tomarlo más en serio. En 2009 se emitieron más de 13.000 millones en participaciones preferentes. Yo no considero una estafa colocar este tipo de híbridos pero si considero que no se cuenta toda la verdad sobre estos productos (en la oficina suelen rellenar los cuestionarios del MiFID al cliente por si alguien pregunta por él, se trata de colocar).  ¿Qué opinará la CNMV al respecto de estos engaños? Pues debe ser que no opina nada, como no son una estafa no pasa nada. Engañamos pero no estafamos.

Por cierto, prefiero las emisiones de Ruiz Mateos. Bajo mi prisma tienen menos riesgo porque a esa gente no les sale NADA mal y se dedican a dar trabajo a "cascoporro". Si luego no pagan a la seguridad social y eso no pasa nada, al fin y al cabo lo hace casi todo el mundo en la economía española. Engañar es muy español, estafar es de sinvergüenzas lo malo es que la línea que separa la estafa del engaño es muy fina.

Truco R. Valores perdidos a 0, ejemplo de uso de sapply

Enero 31st, 2010 por rvaquerizo

Muy habitual partinos la cabeza con valores perdidos en R. Los NA pueden darnos algún quebradero de cabeza. Este truco es muy sencillo, transforma valores  missing a 0 y nos sirve para aplicar funciones a data.frame con la función sapply. Veamos el sencillo ejemplo:


x=c(1,23,5,9,0,NA)
y=c(5,45,NA,78,NA,34)
dataf=data.frame(cbind(x,y))
mean(dataf$x,na.rm=TRUE)
mean(dataf$y,na.rm=TRUE)
#Podría interesarnos tener en cuenta los NAs
sum(dataf$x,na.rm=TRUE)/nrow(dataf)
sum(dataf$y,na.rm=TRUE)/nrow(dataf)

Tenemos un data.frame con dos variables que contienen valores perdidos, deseamos crear una función que  pase estos valores a 0 y aplicarlo al data.frame de partida:


haz.cero.na=function(x){
ifelse(is.na(x),0,x)}
dataf.2=data.frame(sapply(dataf,haz.cero.na))
dataf
dataf.2

Un ejemplo muy sencillo de aplicación de funciones con sapply a data.frames perfectamente extrapolable a matrices y vectores. Erreros tiene una entrada al respecto. Saludos.

Tags: , ,

Monográfico. Regresión logística con R

Enero 29th, 2010 por rvaquerizo

Por fin nos metemos con la regresión logística en R. Nos meteremos con WPS (si es posible). Los modelos de regresión logística son los más utilizados en las áreas en las que el ahora escribiente ha trabajado. ¿Por qué tiene tanto "éxito"? Porque es el mejor ejemplo de modelo de variable linealmente dependiente de otras variables independientes. Pero sobre todo tiene éxito porque modelamos una probabilidad de un suceso (habitualmente dicotómico) en función de unos
factores que pueden ser discretos o continuos. Modelizamos probabilidades, insisto; por ejemplo, si clasificamos la variable comete fraude como 1 y no comete fraude como 0 podríamos realizar un modelo de regresión lineal del tipo fraude(0,1)=:término independiente:+:parámetro:*:independiente:. Matemáticamente es posible, pero si me dices que un cliente tiene un 1,34 de "potencial" de fraude entro en estado de shock. Peeero, si p es la probabilidad de cometer fraude podemos construir esta función Ln(p/(1-p)) y sobre esta función si hacemos: Ln(p/q)=:término independiente: + :parámetro:*:independiente:. O lo que es lo mismo: prob. fraude=1/(1+e**(-:término independiente:-:parámetro:*:independiente:)). Qué bonita función y que interesante propiedad de los logaritmos Lee el resto de esta entrada »

Tags: , , ,

Nace datanalytics.wordpress.com

Enero 27th, 2010 por rvaquerizo

Analisis y decision se despide de Carlos J. Gil Bellosta. Nace http://datanalytics.wordpress.com/ su propio proyecto. Desde aquí tiene todo nuestro apoyo y su correspondiente link. Han sido 23 entradas de las que no quiero destacar ninguna; aunque él sabe que hay una que es una referencia en lengua española. La colaboración entre un gestor moderno de la información (él) y un dinosaurio reaccionario (yo) ha sido muy fructifera y esperamos que en su nueva etapa en http://datanalytics.wordpress.com/ tenga tantos éxitos como los ha tenido aquí.

De todos modos, y como él mismo ha asegurado, esto no es un -hasta siempre- es un -hasta luego-, no desaparece como colaborador. Y evidentemente habrá contínuas referencias a http://datanalytics.wordpress.com/ en esta bitácora. De hecho en este mismo mensaje tiene hasta 3 links para ayudarle a posicionarse mejor en Google. 

Muchos éxitos amigo.

Tags: ,