Me sigo durmiendo con el genio Juan Antonio Cebrián y sus pasajes de la historia, monográficos zona cero o tertulias 4 C. Sus programas de radio me acompañan desde hace muchos años. Estudiando, vigilando instalaciones del ejercito o en el turno de noche de una fábrica Cebrián y su gente ha estado conmigo. En alguna ocasión hablaron del código secreto de la Bíblia, un código existente en la Torá (Pentateuco) que se resume en «todo está escrito».Y es que una gran cantidad de información puede provocar relaciones al azar (o al azahar como le gusta decir a un buen amigo). Y esto puede pasarnos en nuestros modelos matemáticos. Ejecutemos el siguiente código en R:
#DF de partida
df=data.frame(rnorm(1000,100,10))
names(df)=c("dependiente")
#Bucle para añadir 300 variables
for (i in 1:300){
x=data.frame(rnorm(1000,sample(1:100,1),sample(1:50,1)))
nombre=paste("x",i,sep="")
names(x)=nombre
df=cbind(df,x)
remove(x)}
#1.000 observaciones y 300 variables
head(df)
Tenemos un data frame con datos aleatorios, 1.000 observaciones y 300 variables. ¿Pueden existir relaciones aleatorias entre una variable dependiente y estas 300 variables aleatorias? Realicemos un modelo de regresión a ver que pasa:
modelo=lm(dependiente~. ,data=df)
summary(modelo)
No sé lo que os habrá salido a vosotros, pero he encontrado 5 variables donde rechazamos la hipótesis nula que establece que no hay relación lineal. Es decir, 5 variables aleatorias tienen una relación lineal con otra variable aleatoria. ¿Cómo es posible? El azar ha intervenido en nuestro modelo debido al gran número de variables que forman parte de él. Mirad con recelo a aquellos que os dicen «el modelo acierta» y no os justifican los motivos de tal acierto.
Pingback: Twitter Trackbacks for Muchas variables no implican una mejor predicción » Análisis y decisión [analisisydecision.es] on Topsy.com
Ya lo decía Von Neumann:
«… with four parameters I can fit an elephant, and with five I can make him wiggle his trunk.»