Leer una tabla en PDF con Excel (a través de R)

14 Sep

Hay situaciones en las que tenemos datos en pdf y los necesitamos exportar a Excel para graficar o cruzar esos datos. En ocasiones es mejor meter esos datos a mano, otras veces disponemos de un software de pago que nos permite realizar esa tarea y también hay páginas web que nos permiten cambiar el formato del pdf. En nuestro caso simplemente necesitamos una tabla que está en formato pdf para disponer de esos datos en Excel, más sencillo, copiar del pdf y pegar en Excel esa tabla. Si está en texto el pdf se puede complicar y si está en modo imagen más. Si empleas windows en tu esta entrada puede ser de utilidad ya que usando de R podrás hacer está tarea de copiar pdf y pegar Excel de un modo más rápido, te cuento paso por paso en video.

El primer paso será la instalación de R y RStudio:

Una vez hemos disponemos de R y Rstudio en nuestro equipo descarga este programa en R que te permitirá exportar una tabla a R con las instrucciones que resumo a continuación:

Esta entrada del blog quiero que sea dinámica, me gustaría mejorar el proceso porque tiene posibilidades de dar a conocer R a personas sin conocimientos de programación. Podemos crear desde una aplicación hasta leer url. Saludos.

8 respuestas a «Leer una tabla en PDF con Excel (a través de R)»

  1. Hola Raúl. Enhorabuena por la explicación. Sencilla y clara. Te pregunto por tabulizer ya que he visto que tienes Windows. ¿Tuviste algún problema al instalar la librería? Sus creadores dicen que es complicada su instalación en Windows. Gracias!

    • Hola, la verdad es que no tuve ninguno pero no sé si fue vía install.packages o vía github. Tengo que acostumbrarme a poner los mecanismos de instalación, en ocasiones son más importantes que las propias explicaciones.

  2. Estoy intentando correr tu código para leer unas tablas que vienen en un archivo, y R me dice que la función de extract_areas no existe. Sabes qué puede estar fallando?

    Saludos desde México.

  3. Hola Raúl cómo estas?
    Queria consultarte cómo solucionas el problema cuando la tabla viene con la numeración inglesa, es decir «punto decimal». Pude extraer información pero al venir la tabla con separador de miles en coma por ejemplo 1,000. Al copiar la tabla me pega 1 en vez de 1.000.
    Cambié el decimal a «.» pero tampoco me resulta,
    Muchas gracias Raul

  4. Aunque a lo mejor no viene al caso de R, os recomiendo el programa tabula funciona muy bien, también cabe destacar que office 365 también permite importar con una conexión a pdf.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *