Introducción a la Estadística para Científicos de Datos con R
2023-08-21
Capítulo 1 Introducción
1.1 Objetivos
Hay muchos y mejores pero quiero mi propio ensayo de introducción a la estadística en la Ciencia de Datos, además quiero que sirva para crear historias sobre la Estadística. Se emplea un título comercial donde aparece Ciencia de datos personalmente no creo que el oficio consista en hacer ciencia con los datos, en el día a día se aplican análisis estadísticos que nos permiten describir problemas, sugerir soluciones a esos problemas y mediante diseño de experimentos pilotar o medir la eficiencia de esas soluciones. De este modo, la estadística es uno de los pilares sobre los que se fundamenta eso que se denomina Ciencia de Datos y como os se ha comentado con anterioridad hay más y mejores trabajos y por ahí vamos a comenzar, la referencias empleadas para realizar este trabajo son:
- Libro de Carlos Gil
- Introducction to Stadistical Learning
- R for Data Science
- Un Recorrido por los Métodos Cuantitativos en Ciencias Sociales a bordo de R
Esta serie monográfica es similar a la formación que lleva el autor impartiendo en empresas y postgrados universitarios. Los capítulos de los que tendrá este ensayo serán:
- Datos
- Estadística descriptiva
- Probabilidad y distribuciones que describen un problema
- Estadística descriptiva bivariable
- Muestreo e inferencia de aquella manera
- Regresión lineal
- Diseño de experimentos
- Modelos GLM
- Método de modelización estadística
Visión completamente práctica y desde el punto de vista frecuentista que será distinta a lo que podéis encontrar en otros foros. Cada tema tendrá una sección descriptiva y una sección práctica con R.
1.2 Entorno de trabajo
Este trabajo está escrito en Markdown desde RStudio, el primer paso es disponer de RStudio e instalar las librerías necesarias para crear Markdown. Los paquetes que se van a emplear a lo largo del curso serán:
- readxl
- tidyverse
- lubridate
- sqldf
- raster
- DataExplorer
- formattable
- MASS
- car
Estas librerías de R se emplearán en casos prácticos pero no son necesarias:
- h2o
- e1071
- vcd