Ya empleamos R en alguna entrada anterior para analizar textos. Ahora nos metemos con el programa electoral del Partido Popular a 20 días de las elecciones en España. En este link podéis descargaros el programa del Partido Popular. Lejos de lo insustanciales que suelen ser este tipo de documentos y alguna frase mítica del tipo «Crecimiento sin empleo no es recuperación» nos limitaremos a contar las palabras que emplean en este programa.
En el link donde tenemos el programa accedemos al mismo en formato PDF, seleccionamos todo el documento, lo copiamos en un archivo de texto y ya podemos trabajar con R. El código ya ha sido comentado en este blog:
#Análisis del programa del PP
#Leemos el fichero de una ubicación de nuestro equipo
ubicacion="D:\\raul\\wordpress\\text minning R\\programa_PP.txt"
texto = read.table (ubicacion,sep="\r")
#Dejamos todas las palabras en mayúsculas
texto = toupper(texto$V1)
#El texto lo transformamos en una lista separada por espacios
texto_split = strsplit(texto, split=" ")
#Deshacemos esa lista y tenemos el data.frame
texto_col = as.character(unlist(texto_split))
texto_col = data.frame(texto_col)
names(texto_col) = c("V1")
#Eliminamos algunos caracteres regulares
texto_colV1 = sub("([[:space:]])","",texto_colV1)
texto_colV1 = sub("([[:digit:]])","",texto_colV1)
texto_colV1 = sub("([[:punct:]])","",texto_colV1)
#Creo una variable longitud de la palabra
texto_collargo = nchar(texto_colV1)
#Controles que utilizo
head(texto_col)
hist(texto_col$largo)
texto_col = subset(texto_col, largo>4)
library(sqldf)
contador = sqldf("
select V1 as palabra,count(*) as frec
from texto_col
where largo > 4
group by palabra
order by count(*) desc ;")
CAMBIO, POLÍTICA, SOCIEDAD y EMPLEO son las palabras más empleadas. SOCIAL aparece en la posición 50 y JÓVENES mucho más abajo. CRISIS es otra de las palabras que no son muy destacadas. Abrid R, seguid los pasos que os indico y obtendréis un análisis muy interesante. Saludos.
Gracias por este repaso del procedimiento, haces sencillas los conceptos más complejos. A ver cuándo tengo tiempo para analizar unos guiones… Y ver si saco el argumento! Un saludo ;)
¿Nos puedes hacer una nube de palabras? ¿Qué podríamos hacer para comparar los programas de los diversos partidos?
La nube de problemas se puede hacer con
library(snippets)
wt <- table(texto_col$V1)
cloud(wt, col = col.br(wt, fit=TRUE))
quería decir nube de palabras. ¿En qué estaría yo pensando?
Hola amigos nosotros nos ofrecemos por la parte que nos corresponde,para colaborar en concepto de publicidad y lonas publicitarias para campaña,queremos colaborar de alguna manera.
lonas publicitarias
Gracias a todos y espero que os sirva nuestra ayuda.
Pingback: Ejemplo de web scraping con R. La formación de los diputados del Congreso | Análisis y Decisión