Archivo de la categoría: Formación

Conectar R a una base de datos

Cada día los softwares libres van ganando más y más terreno a los softwares comerciales, no sólo por su precio, si no porque incluyen procedimientos más vanguardistas que los comerciales. El mayor problema que tienen es el volumen de datos. 

Cuando he preguntado a algún desarrollador de los principales softwares libres (R, Weka, Knime…) acerca de esta cuestión siempre me han respondido que depende de la capacidad de la máquina o servidor en la que se ejecuten los procesos. Es una respuesta ambigua, es cierto, pero es totalmente cierta. Si dispusiésemos de una máquina con recursos de memoria y almacenamiento ilimitados el software libre sería prácticamente perfecto.  Podríamos decir entonces que la principal desventaja de los software libres frente a los comerciales es la gestión de los procesos (mucho más estudiada en los comerciales), además de una consola o interfaz más amigable.

Desde hace tiempo tengo la curiosidad de hacer una prueba con un volumen de datos enorme en R, en una máquina normalita (1GB de RAM), a ver si consigue acabar el proceso y cuánto tarda.  Ahora que tengo un ratillo en el curro he decidido ponerme a ello, pero me he dado cuenta de que meterle un archivo plano con un comando read podía ser un poco pesado, y me planteé conectarlo directamente a la base de datos. Pensaba que no se podía hacer, pero me encontré esto:

http://grass.itc.it/statsgrass/r_and_dbms.html

Cuando tenga resultados de pruebas de capacidad de R en una máquina estándar las iré posteando. Ojalá me sorprenda y nos llevemos una gran alegría los usuarios de software libre.

Un saludo.

Manual. Curso introducción de R. Capítulo 9: Introducción a la regresión lineal con R

En este capítulo del curso de R vamos a comenza a estudiar el análisis de regresión lineal. Los modelos de regresión lineal son modelos probabilísticos basados en una función lineal, nuestro objetivo es expresar una variable dependiente en función otro conjunto de variables. Los pasos básicos a seguir en el estudio de un modelo lineal son:
1. Escribir el modelo matemático con todas sus hipótesis.

Seguir leyendo Manual. Curso introducción de R. Capítulo 9: Introducción a la regresión lineal con R

Manual. Curso introducción de R. Capítulo 8: Inferencia estadística

En esta nueva entrega del curso de R vamos a trabajar con algunos conceptos básicos  de inferencia estadística. En  primer lugar hacemos  inferencia a partir  de unas observaciones obtenidas a partir de  la población a las que vamos a extraer  unas propiedades que se denominan estadísticos muestrales. Además vamos a conocer la distribución de dichos  estadísticos  (generalmente distribución normal) por lo que hacemos  inferencia paramétrica.

La inferencia paramétrica puede recogerse en una vertiente Seguir leyendo Manual. Curso introducción de R. Capítulo 8: Inferencia estadística

El ODS de SAS (III). Documentos HTML y PDF desde SAS

Desde SAS podemos generar PDF y HTML. Esto es muy práctico a la hora de reportar información ya que no necesitaremos pasar por Excel o cualquier otra herramienta de ofimática para generar informes. Además, si generamos HTML podemos crear webs en las que podemos navegar por los resultados obtenidos con SAS. En este mensaje veremos algunos ejemplos prácticos de uso del ODS para conocer mejor su funcionamiento. Seguir leyendo El ODS de SAS (III). Documentos HTML y PDF desde SAS

El ODS de SAS (II). Dataset desde OUTPUT

Ya vimos el funcionamiento de ODS TRACE ON/OFF. Ahora crearemos datasets a partir del OUTPUT que genera un paso PROC de SAS con ODS. Lo principal es conocer como se denomina cada parte del OUTPUT, esto lo conseguimos con TRACE y analizando el LOG. Una vez conocemos la salida empleamos ODS OUTPUT <nombre de la salida> = libreria.dataset. En el ejemplo que teníamos: Seguir leyendo El ODS de SAS (II). Dataset desde OUTPUT

El ODS de SAS (I). Elementos del OUTPUT

Hoy comenzaré una serie de mensajes dedicados al ODS (Output Delivery System) de SAS. Este mecanismo de SAS nos permite un uso más eficiente del OUTPUT de nuestros pasos PROC además podemos crear excel (como ya vimos), crear dataset, no generar salidas,… Antes SAS nos ofrecia un texto plano en la ventana OUTPUT, ahora generamos documentos sofisticados. En tres entregas veremos: Seguir leyendo El ODS de SAS (I). Elementos del OUTPUT

Manual. Curso introducción de R. Capítulo 7: Funciones gráficas básicas en R

R dispone de múltiples posibilidades a la hora de realizar gráficos. De hecho, bajo mi punto de vista, puede ser una de las herramientas estadísticas más potentes al respecto, además es gratuita y existe una comunidad detrás que pone a nuestra disposición múltiples manuales y documentación. Debido al gran material existente este capítulo sólo será una pequeña introducción a sus posibilidades Seguir leyendo Manual. Curso introducción de R. Capítulo 7: Funciones gráficas básicas en R

Manual. Curso introducción de R. Capítulo 6: Funciones de estadística descriptiva

En R trabajaremos con objetos y funciones. En capítulos anteriores hemos empezado a crear objetos, fundamentalmente vectores y matrices. En la presente entrega vamos a estudiar las funciones básicas de estadística descriptiva.

Como funciones de medida de tendencia y localización tendremos:

  Seguir leyendo Manual. Curso introducción de R. Capítulo 6: Funciones de estadística descriptiva

Manual. Curso introducción de R. Capítulo 5: Lectura avanzada de datos

En esta nueva entrega aprenderemos a importar datos a R desde otras fuentes. Habitualmente no introduciremos manualmente los datos, emplearemos las posibilidades de lectura que nos ofrece R. En este capítulo leeremos ficheros de texto y ficheros Access, para ello necesitaremos el paquete de R RODBC. Seguir leyendo Manual. Curso introducción de R. Capítulo 5: Lectura avanzada de datos