Análisis de textos con R - Análisis y Decisión

Vamos a replicar un ejemplo ya presentado con WPS en esta misma bitácora. Tratamos de hacer algo tan sencillo como contar palabras y para ello empleamos de nuevo un debate del Congreso de los Diputados de España. Estas intervenciones las transformamos en un fichero de texto que vosotros podéis descargaros de este link. Bien, partimos de un archivo de texto de Windows y con él vamos a crear un data frame de R que contendrá las palabras empleadas en esa sesión del Congreso español. Pasamos a analizar el código empleado:

#Leemos el fichero de una ubicación de nuestro equipo ubicacion="D:\\raul\\wordpress\\text minning R\\datos\\intervencion_congreso.txt" texto = read.table (ubicacion,sep="\r") #Dejamos todas las palabras en mayúsculas texto = toupper(texto$V1) #El texto lo transformamos en una lista separada por espacios texto_split = strsplit(texto, split=" ") #Deshacemos esa lista y tenemos el data.frame texto_col = as.character(unlist(texto_split)) texto_col = data.frame(texto_col) names(texto_col) = c("V1")

Está bien comentado en el código, pero repetimos. Leemos el archivo de texto con una sóla variable y donde el retorno de carro es el separador, en R el retorno de carro es \r. Con toupper ponemos todas las palabras en mayúsculas y a partir de ahí creamos una lista con los elementos de la tabla inicial partiendo por espacios en blanco. Se deshace la lista y se crea un data frame con una variable que llamamos V1. Ahora es necesario realizar una pequeña depuración de las palabras. Mi hijo acaba de tirar una piedra al portátil así que no me entretendré mucho con esta tarea:

#Eliminamos algunos caracteres regulares texto_col $V1 = sub("([[:space:]])","",texto_col$ V1) texto_col $V1 = sub("([[:digit:]])","",texto_col$ V1) texto_col $V1 = sub("([[:punct:]])","",texto_col$ V1) #Creo una variable longitud de la palabra texto_col $largo = nchar(texto_col$ V1) #Controles que utilizo head(texto_col) hist(texto_col$largo)

Con la función sub vamos a eliminar caracteres regulares como espacios («([[:space:]])») números («([[:digit:]])») y signos de puntuación («([[:punct:]])»). Con nchar creamos una variable en el data frame para determinar la longitud de la palabra. Se realiza un histograma para analizar estas longitudes.

Ya disponemos de un data frame preparado para nuestro objetivo, ahora sólo nos queda realizar la tabla de frecuencias y para ello vamos a emplear el paquete sqldf (como no):

library(sqldf) contador = sqldf(" select V1 as palabra,count(*) as frec from texto_col where largo > 4 group by palabra order by count(*) desc ;") head(contador)

Vemos que el código requiere de una cierta mejora, pero parece claro que les preocupaba la REFORMA CONSTITUCIONAL y la CONSTITUCION (ahora nos acordamos de ella). Esta entrada continuará con la creación de una nube de palabras que realizaremos con ggplot2.

Por cierto, este trabajo se intentó hacer con la librería tm y no pude con los caracteres especiales tales como ñ o tildes, ¿alguien sabe cómo solventar este problema?

10 respuestas a «Análisis de textos con R»

Gregorio R. Serrano dice:

06/09/2011 a las 4:15 am

Hola Ramón. Yo creo que lo de tm es un problema de la codificación de carácteres. Si quieres, mándame el archivo de texto y hago alguna prueba con tm que a mi me ha funcionado bien con texto en castellano.

Responder
rvaquerizo dice:

06/09/2011 a las 3:18 pm

Hola, soy Raúl, no Ramón. La verdad es que no le di muchas vueltas al problema con tm, en la lista de r en español se planteó la duda y no se resolvió.

En la entrada aparece el link al archivo de texto plano (https://analisisydecision.es/wp-content/uploads/2011/09/intervencion_congreso.txt)

Empecé con:

library(tm)
#directorio de trabajo
ub_datos = «D:/wordpress/text minning R/datos»
estruc = Corpus(DirSource(ub_datos))

texto.matrix<-TermDocumentMatrix(estruc, control = list(removePunctuation = TRUE, stemming = TRUE, minWordLength = 5)) Y en el momento que obtuve 2 veces este error: Error en tolower(txt) : invalid input 'ORDEN DEL DÍA: ' in 'utf8towcs' No me compliqué mucho más la vida. A ver si puedes resolver el problema y en la siguiente entrada empleo tm. Gracias

Responder
A dice:

02/03/2016 a las 8:34 pm

Hola

¿Cómo hacer para que reconozca las tildes del idioma español?
Realizando :

text <- readLines("/Users/usuario/Desktop/intervencion_congreso.txt",encoding="UTF-8")

Coge las tildes como:

"Eran las doce y cuarenta minutos del medioda.»

En vez de: Eran las doce y cuarenta minutos del mediodía.

Responder
rvaquerizo dice:

04/03/2016 a las 4:52 am

Hola, ¿utilizas R-Studio?

Responder
rvaquerizo dice:

14/03/2016 a las 2:55 am

Hola, me han demostrado que UTF no puede con todo, utiliza latin1 en el encoding. Evita utilizar fileEncoding.

Responder
Paco Almendra dice:

28/04/2017 a las 4:24 am

Estoy realizando un Trabajo Fin de Máster en la Universidad de Extremadura. Me gustaría saber si podría contactar contigo por privado. He creado un fichero de datos por scraping sobre comentarios y necesito contar las palabras de este fichero. Estoy trabajando en windows.

Responder
Marco David dice:

13/09/2019 a las 1:37 pm

buenas tardes tengo una consulta, como puedo realizar una concatenación de caracteres utilizando una condicion if cual seria la sintaxis , gracias de antemano

Responder
- rvaquerizo dice:
  
  14/09/2019 a las 5:47 am
  
  para concatenar caracteres emplea paste o paste0, lo que no entiendo muy bien es a que te refieres con una condición if, pon un ejemplo aunque no funcione.
  
  Responder
leo dice:

06/03/2020 a las 2:54 pm

Tienes que usar:
encoding = «latin1»
al cargar el archivo

Responder
Daniel dice:

01/05/2020 a las 3:15 pm

Hola, que pasa si no fuera un .txt sino una columna con texto? alguien sabe?

Gracias.

Responder

10 respuestas a «Análisis de textos con R»

Deja una respuesta Cancelar la respuesta