Introducción a la Estadística para Científicos de Datos con R. Capítulo 1. Introducción

1 Ene

Este contenido está sujeto a una licencia creative commons

Todo el contenido estará dispuesto en un repositorio de git y se irá publicando de forma paralela en mi blog Analisis y Decisión

Objetivos

Hay muchos y mejores pero he creado mi propio trabajo de introducción a la estadística en la Ciencia de Datos para dar mi visión particular del oficio y quiero que sirva para contar historias sobre la Estadística desde otro prisma. Se emplea un título comercial donde aparece el término Cientifico de datos, personalmente no creo que el nuestro trabajo consista en hacer ciencia con los datos pero en el día a día del llamado científico de datos se aplican análisis estadísticos que nos permiten describir o descubrir problemas, sugerir soluciones a esos problemas y mediante diseño de experimentos pilotar o medir la eficiencia de esas soluciones. De este modo, la estadística es uno de los pilares sobre los que se fundamenta eso que comercialmente se denomina Ciencia de Datos.

Como se ha comentado con anterioridad es mejor leer otros trabajos y por ahí da comienzo este ensayo, la referencias empleadas son:

Los aspectos teóricos están sacados del material que publica José R. Berrendero y se recomienda seguir todo su trabajo en la web

Aunque se hará referencia a las publicaciones concretas, las cuentas de Twitter que inspiran algunos capítulos son:

Esta serie monográfica será similar a la formación que he impartido en empresas, universidades y escuelas de negocio desde hace algunos años. Los capítulos de los que se compone este ensayo son:

  • Datos
  • Manejo de datos con R
  • Uniones de tablas con R
  • Representar datos con ggplot
  • Análisis univariable
  • Problemas que plantean las variables

Visión completamente práctica y desde el punto de vista frecuentista que será distinta a lo que se puede encontrar en otros foros. Cada tema tendrá una sección descriptiva y una sección práctica con R.

Entorno de trabajo

Se asume un conocimiento básico de R y su entorno, aunque no es necesario ser un usuario avanzado. Como se hizo mención entre los objetivos está el contar historias con la Estadística desde otro punto de vista y para ello la herramienta con la que se va a contar esta misma historia es Markdown desde RStudio a través de la librería bookdown por este motivo es necesario disponer de RStudio e instalar las librerías necesarias para crear Markdown. Los paquetes que se van a emplear a lo largo del curso serán:

  • readxl
  • tidyverse
  • lubridate
  • sqldf
  • raster
  • DataExplorer
  • formattable
  • MASS
  • car
  • rmarkdown
  • knitr
  • bookdown

Estas librerías de R se emplearán en casos prácticos pero no son necesarias:

  • h2o
  • e1071
  • vcd

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *