Archivo de la categoría: Business Intelligence

El debate político o como analizar textos con WPS

¿Qué hacen los políticos españoles en el Congreso de los Diputados? Las tertulias radiofónicas están llenas de analístas políticos que podrán opinar sobre la labor del Congreso mejor que yo. Sin embargo yo tengo WPS, sé programar en SAS y en la web del Congreso están todas las sesiones y todas las intervenciones de la democracia. Pues con estos elementos vamos a iniciar un proceso de text mining, aunque no llegaremos a realizar ningún análisis complejo. Para comenzar, como siempre, necesito datos. Me he guardado la sesión del Congreso de los Diputados del día 26/01/2011 como web y posteriormente con Word la he salvado como fichero de texto (ojo con las codificaciones). De todos modos podéis descargaros aquí el fichero.

Comienza nuestro trabajo con WPS y lo primero es crear una tabla con la sesión:

filename sesion "D:\raul\wordpress\text mining WPS\PopUpCGI.txt" ;
data sucio;
infile sesion RECFM=V LRECL=10000;
informat linea1 $10000.;
format linea1 $10000.;
input linea1 $10000. ;
run;

Comenzamos con lo más sencillo pero considero necesario realizar unos comentarios. Cuando hacemos el INFILE la longitud de registro es mejor que sea variable, así aprovechamos los saltos de línea, como longitud de registro 10000 caracteres me parecen suficientes, esto no tiene mucha ciencia pero considero que las intervenciones no habrían de tener más de 10000 caracteres. Ahora tenemos una tabla de frases y yo quiero llegar a una tabla de palabras, será necesario un bucle que recorra caracter a caracter y separe las palabras Seguir leyendo El debate político o como analizar textos con WPS

Montemos un sistema de información en nuestro equipo (II)

Vamos a empezar a subir archivos a la BBDD. Evidentemente lo primero que tenemos que hacer es crearnos una BBDD en Postgres. Con el PGAdmin creamos una nueva base de datos, disponemos de varias opciones, en nuestro caso no modificamos ninguna y creamos BD. Ya tenemos una BBDD funcionando y a la hora de conectarnos a ella tendremos que asignarle las propiedades necesarias para su correcto funcionamiento:

postgres-1.png

Ya tenemos dispuesta la BBDD y ya podemos empezar a subir tablas. Para ello ya os comenté que usaríamos el Data Integration de Pentaho (antes conocido como Kettle). La intención que tengo al montar este pequeño sistema de información es disponer de una serie de tablas para la realización de modelos estadísticos con R. Podría tener mi equipo lleno de ficheros de texto, de Excel y algún Access por ahí pero es eso lo que pretendo evitar, con esto me garantizo un orden y un correcto acceso a mis tablas. Para comenzar a trabajar quiero subir una tabla del repositorio de datos UCI Quiero seguir trabajando con el paquete e1071 de R Seguir leyendo Montemos un sistema de información en nuestro equipo (II)

Montemos un sistema de información en nuestro equipo (I)

Un poco de bricolaje. Se trata de crear un sistema de información sin coste y que nos permita almacenar nuestros datos con orden y coherencia, crear informes y realizar modelos matemáticos bajo Windows. Es perfectamente replicable para Linux. También estoy abierto a sugerencias ya que tampoco soy ningún experto en el tema y podemos crear un debate interesante. El sistema que planteo se va  a sustentar en 3 pilares fundamentales que os podéis descargar de forma gratuita en los link creados:

  • Postgres:
  • Será nuestro motor de BBDD relacionales. Seguramente no haremos un modelo de datos complicado e incluso nos dedicaremos a llenar la BBDD con tablas de todo tipo sin mucha conexión entre ellas pero es necesario tener una BBDD.

  • Data integration de Pentaho:
  • Será la herramienta que empleemos para subir datos al servidor. También podremos emplearla para realizar informes.

  • R:
  • Que puedo más puedo decir sobre R. El futuro.

Para la realización de informes he comentado la posibilidad de emplear Pentaho pero puede ser más adecuado emplear una hoja de cálculo. Para esto yo si me gasté dinero y dispongo de Excel, pero intentaré trabajar con Google Spreadsheet. El primer paso es descargarse cada una de las herramientas que propongo. Tanto Postgres como R nos lo descargamos y lo instalamos, el Data Integration de Pentaho no requiere instalación, nos descargamos el archivo, lo descomprimimos y para arrancarlo tenemos el script spoon.bat R no plantea muchos problemas para instalarse en un equipo local de Windows y Postgres puede dar algún problema en Windows 7, si alguien los tiene que los reporte para ayudar a solventarlos y así quedan documentados en el blog. La instalación dePostgres nos pedirá la contraseña del admin, ojo con esta contraseña.

En la siguiente entrega comenzaremos a trabajar con Postgres y Pentaho. Por supuesto, como he comentado antes, cualquier aporte será bienvenido. Saludos

¿Proyectos de NOSQL en España?

Quería aprovechar que esta bitácora se lee en muchas empresas y universidades para buscar algún proyecto en NOSQL en España. Hace tiempo que estoy intererado en bases de datos no relacionales. La verdad es que no concivo una base de datos que no sea relacional, por ese mismo motivo me interesa tanto el tema. Si el paradigma del dinosaurio (yo) no es capaz de entender que aporta el NOSQL entonces es una tecnología muy a tener en cuenta.

De todas formas no creo que a corto plazo sea una alternativa a mi querido Oracle. ¡Y si hace falta gastarse más pasta en escalar los sistemas pues se gasta!

Lo dicho, si conocéis algún proyecto basado en este tema comunicádmelo, me estoy planteando crear un canal con entrevistas. Saludos.

Trucos Excel. Mapa de España por provincias

Pongo a vuestra disposición un archivo Excel que nos permite la realización del siguiente gráfico:

mapa-espana-provincias-excel.PNG

En este link podéis descargaros el archivo. He elegido formato Excel 2003 para el archivo, de este modo lo podréis utilizar muchos de vosotros. Si alguien desea el formato 2007 que lo diga Seguir leyendo Trucos Excel. Mapa de España por provincias

Stadistical data warehouse del European Central Bank con R y los depósitos a pérdidas

Más ejemplos de uso del paquete de R XML. Vamos a leer datos del data warehouse del European Central Bank. Si dais una vuelta por la web tendréis interesantes datos económicos de los países de la Unión Europea. A modo de ejemplos vamos a leer los datos de los tipos de interés medios a 12 meses que se están dando por los bancos en España y la evolución del Euribor a 6 meses.
– Report Tipos:    http://sdw.ecb.europa.eu/quickview.do?SERIES_KEY=124.MIR.M.ES.B.L22.F.R.A.2250.EUR.N
– Report Euribor:    http://sdw.ecb.europa.eu/quickview.do?SERIES_KEY=143.FM.M.U2.EUR.RT.MM.EURIBOR6MD_.HSTA

Vamos a generar el siguiente gráfico comparativo:

interes-vs-euribor.PNG

Comenzamos el trabajo con R:

require(XML)
pag="http://sdw.ecb.europa.eu/quickview.do?SERIES_KEY=124.MIR.M.ES.B.L22.F.R.A.2250.EUR.N"
depos=readHTMLTable((((pag))))
#str(depos)
#Creamos un data frame legible
aux1=data.frame(depos[6])
#Eliminamos títulos
aux1=aux1[4:nrow(aux1),]
#Prefiero trabajar con 2 df
mes=as.vector(aux1$NULL.V1)
#Transformo un factor de R a número
valor=as.data.frame(as.numeric(
levels(aux1$NULL.V2)[aux1$NULL.V2]))
#Creo el df final
depos=data.frame(cbind(mes,valor))
#No quiero factores por ningún sitio
depos$mes=as.character(depos$mes)
str(depos)
names(depos)=c("mes","interes")
head(depos)

Es un código sucio, no me he preocupado mucho por él. Con la función readHTMLTable leemos la tabla del report que nos ofrece el BCE. STR es muy importante porque nos quedaremos Seguir leyendo Stadistical data warehouse del European Central Bank con R y los depósitos a pérdidas

Como abrir proyectos de Enterprise Guide corruptos o de una versión anterior

Muchos hemos sufrido este error trabajando con Enterprise Guide de SAS:

Unable to open file as a valid project file

Además de la pantalla:

eguide-version-2.PNG

De este modo “tan sencillo” podemos recuperar los códigos de nuestro proyecto de Enterprise Guide siempre que sean proyectos *.egp y no *.seg. Por cierto, para abrir proyectos de versiones anteriores tenemos el Migration Wizard de Guide, da algunas pegas prefiero este método. Un gran truco de http://www.dnmca.com 

David gana a Goliat. La sentencia del caso SAS frente a WPS

Estaba esperando que saliera la sentencia. Además cabía la posibilidad de pertenecer a Goliat y tenía la boca cerrada. Y resulta que tenemos una de las sentencias más interesantes en cuanto a software se refiere:

http://www.bailii.org/ew/cases/EWHC/Ch/2010/1829.html

Yo no soy capaz de leerme eso en inglés pero el traductor de Google me ha ayudado:

Por las razones anteriormente expuestas, llego a la conclusión de la siguiente manera:i) Si bien no estoy convencido de que Pumfrey J se equivocó al concluir en Navitaire que, sobre la correcta interpretación del artículo 1 (2) de la Directiva sobre el software, derechos de autor en los programas de ordenador no protege a los lenguajes de programación de la copia, estoy de acuerdo con él que se trata de una cuestión sobre la que se requiere la orientación de la Tribunal de Justicia (véanse los párrafos 211-218 supra).

ii) Aunque yo no estoy convencido de que Pumfrey J se equivocó al concluir en Navitaire que, sobre la correcta interpretación del artículo 1 (2) de la Directiva sobre el software, derechos de autor en los programas de ordenador no protege a las interfaces que se copie en que esto puede lograrse sin descompilar el código objeto, considero que esta es también una cuestión sobre la que se requiere la orientación de la Tribunal de Justicia (véanse los párrafos 219-227 supra).

iii) Aunque yo no estoy convencido de que Pumfrey J se equivocó al concluir en Navitaire que, sobre la correcta interpretación del artículo 1 (2) de la Directiva sobre el software, derechos de autor en los programas de ordenador no protege a las funciones de los programas de la copia, y aunque su decisión sobre ese punto fue confirmada por el Tribunal de Apelación de Nueva, considero que esta es también una cuestión sobre la que se requiere la orientación de la TJCE (véanse los párrafos 228-238 supra).

iv) En el supuesto de que la interpretación Pumfrey J del artículo 1 (2) de la Directiva sobre el software era correcta, WPL no ha vulnerado los derechos de autor de SAS Institute en los componentes de SAS mediante la producción de WPS (véanse los párrafos 245-250 supra).

v) considero que el razonamiento que sustenta la interpretación Pumfrey J del artículo 1 (2) de la Directiva sobre el software también se aplica el artículo 2 (a) de la Directiva sobre Sociedad de la Información, pero de nuevo se trata de una cuestión sobre la que se requiere la orientación de la TJCE (véanse los párrafos 251-256 supra).

vi) En el supuesto de que el artículo 2 (a) de la Directiva sobre Sociedad de la Información debe ser interpretado de la misma manera en que el artículo 1 (2) de la Directiva sobre el software, WPL no ha vulnerado los derechos de autor SAS Institute en los Manuales de SAS mediante la producción o pruebas WPS (véanse los párrafos 257-267 supra).

vii) la utilización WPL de la edición de SAS aprendizaje queda fuera del alcance de los términos de las licencias pertinentes (véanse los párrafos 276-290 supra).

viii) La interpretación del artículo 5 (3) de la Directiva sobre el software es otra cuestión sobre la que se requiere la orientación de la Tribunal de Justicia (véanse los párrafos 291-311 y 314 supra).

ix) En la interpretación del artículo 5 (3), que estoy a favor, use WPL de la edición de aprendizaje es en el artículo 5 (3), y en la medida en que los términos de la licencia evitar que esto son nulos y sin valor, con el resultado de que ninguno de los actos WPL se quejó de un incumplimiento de contrato o de la violación del derecho de autor excepto, quizá, un (véanse los párrafos 313-315 arriba).

x) WPL ha infringido los derechos de autor en los Manuales de SAS de forma sustancial a la reproducción en el Manual de WPL (véanse los párrafos 317-319 supra).

xi) WPL no ha vulnerado los derechos de autor en los Manuales de SAS mediante la presentación de las Guías de WPS (véanse los párrafos 320-329 supra).

Atención a la frase la Directiva sobre el software era correcta, WPL no ha vulnerado los derechos de autor de SAS Institute en los componentes de SAS mediante la producción de WPS. Bueno, pues parece que al gigante le ha salido un duro competidor pero sobre todo hay una sentencia muy interesante sobre “la apertura del código cerrado”.

Sin duda alguna la noticia del verano.