Archivo de la etiqueta: analisis de textos

El debate político o como analizar textos con WPS

¿Qué hacen los políticos españoles en el Congreso de los Diputados? Las tertulias radiofónicas están llenas de analístas políticos que podrán opinar sobre la labor del Congreso mejor que yo. Sin embargo yo tengo WPS, sé programar en SAS y en la web del Congreso están todas las sesiones y todas las intervenciones de la democracia. Pues con estos elementos vamos a iniciar un proceso de text mining, aunque no llegaremos a realizar ningún análisis complejo. Para comenzar, como siempre, necesito datos. Me he guardado la sesión del Congreso de los Diputados del día 26/01/2011 como web y posteriormente con Word la he salvado como fichero de texto (ojo con las codificaciones). De todos modos podéis descargaros aquí el fichero.

Comienza nuestro trabajo con WPS y lo primero es crear una tabla con la sesión:

filename sesion "D:\raul\wordpress\text mining WPS\PopUpCGI.txt" ;
data sucio;
infile sesion RECFM=V LRECL=10000;
informat linea1 $10000.;
format linea1 $10000.;
input linea1 $10000. ;
run;

Comenzamos con lo más sencillo pero considero necesario realizar unos comentarios. Cuando hacemos el INFILE la longitud de registro es mejor que sea variable, así aprovechamos los saltos de línea, como longitud de registro 10000 caracteres me parecen suficientes, esto no tiene mucha ciencia pero considero que las intervenciones no habrían de tener más de 10000 caracteres. Ahora tenemos una tabla de frases y yo quiero llegar a una tabla de palabras, será necesario un bucle que recorra caracter a caracter y separe las palabras Seguir leyendo El debate político o como analizar textos con WPS