Archivo de la etiqueta: hadoop

SQL vs Hadoop. Más que una tendencia

Google Trends, SQL frente a Hadoop. La tendencia es clara, mientras el interés por Hadoop está creciendo, el interés por SQL baja en picado [aunque vaticino un estancamiento de 2-3 años]. Y si analizamos el interés por zona geográfica por Hadoop:

Ya podéis avidinar quienes marcarán el ritmo en el sector. Quienes serán la referencia en Big Data en 3-4 años. A dónde irán los servidores de las principales compañías mundiales. Muy significativo.

¿Google enemigo del open source?

Carlos Gil ya habló de Hadoop hace algún tiempo y en su blog hizo referencia de nuevo a la gestión de información desestructurada por lo que despertó mi curiosidad sobre mapreduce y el procesado de datos en paralelo. Pero lo primero que me llamó la atención fue que Google no pusiera pegas sobre el "uso o aprovechamiento" de su algoritmo de mapreduce. Al fin y al cabo tras la salida a bolsa de Google en 2004 quedaba claro que era una empresa con un objetivo comercial. No seré yo quien critique este objetivo, son los mejores y punto. Peeeero en todo este proceso de aproximación a Hadoop y mapreduce me encuentro con esta noticia.

Insisto, Google es el mejor y tiene derecho a copar el 90% del mercado. Sin embargo, ¿no se estará pasando con esos objetivos comerciales? Esto parece un ataque frontal al open source. Es evidente que Hadoop (o algo de parecida filosofía) será el futuro de la gestión de la información, campo en el cual Google no es una referencia. ¿Os imagináis una herramienta de detección de fraude de Google? Nadie podrá analizar tantas transacciones como ellos, acabaría con el resto como va a pasar con los navegadores GPS, con la telefonía, los sistemas operativos,...

Yo soy proGoogle, pero son muchos los que opinan que son un peligroso monopolio, por lo que quiero seguir esta noticia y analizar que buscan con todo este proceso judicial. Bajo mi prisma han tocado la fibra a una parte muy amplia de la comunidad de la red, muchos que nos dedicamos a difundir, divulgar y compartir "conocimientos" vemos como, aquellos que fueron pioneros en esta tarea de compartir desde el garaje de su casa al final tienen un objetivo muy distinto del que tenían en cuando nacieron. Será la naturaleza humana.

Seguiré la noticia a ver en que queda. Google tiene razón jurídica pero su única intención es aumentar su capital.

El futuro de la profesión

Nuestra profesión, la del estadístico que trabaja en la industria o la consultoría, está sometida a los cambios que exige el nuevo siglo. Llevo meses clamando en vano frente a un público que no escucha mis advertencias de peligro de obsolescencia. Pero un anuncio de un puesto de trabajo en un país lejano y que algunos consideran adelantado, me hace sentir reivindicado.

Atención a los requisitos meramente técnicos:

  • Escribir e interpretar queries de SQL complejas
  • Escribir e interpretar análisis de datos del tipo map-reduce usando Hadoop y Pig
  • Escribir código combinando SQL, Java, Pig y otros lenguajes de script
  • Trabajar con conjuntos de datos grandes de tipo desestructurado (varios terabytes, más de 100 millones de trnsacciones diarias)
  • Experiencia con lenguajes de script y expresiones regulares
  • Interés en matemáticas discretas y estadística
  • Experiencia transformando requisitos de negocio en sistemas informáticos

Nos adentramos en un brave new world, quiéranlo los nostálgicos del s. XX o no.