Quería poneros unos apuntes sobre el paquete XML de R. El caso es que entre todos los fregados en los que ando metidos he retomado el tema de leer páginas web con R. Y con esto he llegado a la sentencia install.packages(«XML») y con la fiebre mundialista estoy en lo siguiente:
pag="http://es.wikipedia.org/wiki/Anexo:Finales_de_la_Copa_Mundial_de_F%C3%BAtbol"
pagina=data.frame(readHTMLTable(pag))
ganador=data.frame(substr(paginaNULL.Ganador,3,length(paginaNULL.Ganador)))
names(ganador)=primero
segundo=data.frame(substr(paginaNULL.Segundo.puesto,3,length(paginaNULL.Segundo.puesto)))
names(segundo)="segundo"
Muy sencillo, leemos la wikipedia y nos creamos un objeto con las finales de todos los mundiales. Me voy a centrar en los finalistas. Parece que tengo algún problema con las tildes y con nulos. Grafiquemos un poco:
ganador=subset(ganador,nchar(as.character(primero))>0)
segundo=subset(segundo,nchar(as.character(segundo))>0)
library(plyr)
tabla=ddply(ganador,"primero",summarise,veces=length(primero))
library(plotrix)
pie3D(tablaveces,labels=tablaprimero,main="Campeones históricos")
Vemos que al final esto siempre lo ganan los mismos. Nos facilita una predicción.Veamos los finalistas:
finalistas=data.frame(rbind(as.matrix(ganador,dimnames=list("finalista")),
as.matrix(segundo,dimnames=list("finalista"))))
pie3D(tablaveces,labels=tablaprimero,main="Finalistas")
Un poco vago con el nombre de las variables. A la vista de los datos la final será Brasil – Argentina. Lo que no tengo tan claro es cúal ganará… Seguiremos trabajando con XML y con plotrix.