Archivos de la categoría Opinión

Facebook y su Facebookgate son buenas noticias para el data scientist y para el oficio en general

En todo el lío de Facebook y su Facebookgate o Facegate ha aparecido el nombre de Cambridge Analytica empresa dedicada al análisis de datos para el desarrollo de campañas. Probablemente en la mente de todos está la forma de operar de esta compañía con estorsiones, prostitutas y malas artes varias. Sin embargo yo me quedo con lo que se supone que ha hecho esta empresa con los datos de millones de usuarios de Facebook, los análisis llevados a cabo por Cambridge Analytica han influido en la campaña presidencial de Estados Unidos y en el referéndum por el Brexit. Es decir, gestión de grandes volúmenes de datos y métodos de análisis (no sé si avanzados o no) son capaces de poner y quitar presidentes de la democracia más importante del mundo.

Si una muestra de datos, una muestra de usuarios de Facebook (porque sólo es una pequeña parte) provoca ese tipo de “terremotos” electorales ¿os imagináis que se puede hacer con nuestros datos de Facebook? Pues eso, inimaginable. Pueden hacer series a nuestro gusto, saber si pueden darnos un préstamo, determinar el precio de nuestro seguro de vida, pueden saber lo que necesitamos incluso antes de necesitarlo. Una pequeña parte de lo que sabe Facebook de nosotros porque somos nosotros los que hacemos Facebook. En el momento de escribir estas líneas Facebook está bajando su cotización bursátil, y yo opino que debería subir porque acaba de demostrar su potencial: Una red social que puede sacar a millones de británicos de la Unión Europea para hacer más grande a los enemigos de la Unión.

Podemos pensar que es el momento de poner control, de regular, que estamos trabajando en directrices del tipo GDPR que protege nuestra privacidad, que las multas pueden poner coto a este tipo de actuaciones. ¿Poner control a la publicación libre de una opinión? Podemos poner control al uso de esa información, pero ese concepto de “uso” es el que puede ser más difuso desde el momento en el que entra en juego el uso de datos anónimos. Ejemplo, si no das tu consentimiento expreso para que tu información pueda ser usada te cobro por el servicio, si das ese consentimiento el servicio será gratuito, yo te garantizo que eres un elemento anónimo. Y muchos anónimos han puesto como presidente del gobierno de Estados Unidos a Donald Trump.

Para mi todo esto no son malas noticias, se acaba de demostrar que mi trabajo y el de otros muchos mineros de datos, data scientist, gestores de la información… funciona ¡y de qué manera! Yo ya lo sabía porque ya son años haciendo que grandes compañías gasten menos o ganen más con datos. Y por cierto, no estaría mal que Cambridge Analytica compartiera su trabajo en github.

De actuario a científico de datos

De_actuario_a_cientifico_de_datos1

Si vemos las tendencias de búsqueda de Google Trends entre “actuary” y “data scientist” desde 2015 se aprecia que la segunda tendencia ha ido en aumento en los últimos tiempos hasta ser una búsqueda tan popular o más que la tendencia “actuary”. Aunque tengo formación como estadístico e informático he trabajado haciendo labores de actuario especializado en precios tanto de nuevo negocio como en renovación durante muchos años y ahora estoy evolucionando para convertirme en científico de datos. He hablado en algún evento de este cambio de paradigma que va más allá de quitarme la corbata y venir a trabajar en zapatillas. En mi opinión el origen de este cambio está en el trabajo en entornos colaborativos y por consiguiente en el uso y la extensión del software libre y los beneficios que esto supone.

El actuario es un tipo de la vieja escuela con mucha formación académica a sus espaldas, experto en su negocio, que sabe mucho de estadística y gurú en software comercial de precio alto que está expresamente pensado para su trabajo diario. Todo va medido al milímetro ya que suele moverse en entornos regulados y nada puede escapar a su control ¡su trabajo está sujeto a una supervisión!. Y ahora aparecen unos tipos que, a golpe de formación en Coursera, hacen modelos de todo tipo y de forma industrial basados en técnicas de aprendizaje automático con lenguajes de programación compuestos de librerías que cualquiera se puede descargar de la red y donde cada programador aporta su granito de arena. Un entorno con menor control que es más difícil de regular.

El cambio está ahí y es importante adaptarse, no podemos ser reaccionarios, de hecho el actuario ha trabajado en cambios tecnológicos y de negocio fundamentales. Algún actuario que esté leyendo esto habrá vivido una migración de una tarifa univariable a una tarifa multivariable ¿qué pasó? Se pasó de un dominio total de una tarifa por parte del equipo de negocio a una estructura más complicada pero ¿cuáles fueron los resultados? Mejoraron las ventas y mejoró la siniestralidad. Es así, personalmente lo he vivido. Y el actuario ha sido capaz de plasmarlo en una nota técnica. Optimización de precios en renovación, lo mismo, sólo que esto cuesta más dejarlo plasmado en una nota técnica, pero el actuario ha sido capaz. ¿No va a ser capaz el actuario de emplear nuevas técnicas de modelización y optimización? Cuidado, no mal interpretemos, no se trata de perder la cabeza con el deep learning (por ejemplo), que se están viviendo situaciones extremistas del tipo “no me fío de los modelos” a “sin el deep learning estamos fuera”, hay que hacer una transición. Y esta transición, en mi opinión, hay que basarla precisamente en las técnicas de modelización cimentadas en nuevos lenguajes de programación y desarrollos colaborativos.

El cambio es necesario y no debemos ser ajenos, yo personalmente lo estoy viviendo, en 9 meses me he actualizado tecnológicamente. Es verdad que aun me ruboriza comprobar como distintos motores que hacen MapReduce son capaces de dar resultados diferentes, sólo varían unos pocos cientos me dicen, a ver como se lo cuentas a un supervisor. O el caso en el que se busca el mejor modelo con miles de variables en base a bucles y donde sólo importa el AUC o se reclasifica un factor de forma automática en base a tal o cual algoritmo. Está siendo duro pero se abre un mundo de posibilidades donde nuestra creatividad ya no está limitada por el software, además esta nueva forma de trabajar la podemos adaptar a nuestras necesidades creando aceleradores que nos permiten centrarnos en el negocio y no tanto en la programación, no es necesario ser un gurú en programación ni trabajar con “pantallas negras” ya que se elaboran entornos más amigables y donde muchas tareas las puedes automatizar, te haces el software a medida. Por otro lado podemos resumir el comportamiento de modelos que van más allá de una clasificación lineal, no son cajas negras porque hay técnicas y medios para explicar como se comporta mi cliente dentro de un modelo, incluso podemos hacer un chatbot que te resuma el comportamiento cliente a cliente. Y cuando hacemos optimización matemática con la renovación de nuestra cartera… se acabó de depender del fabricante, ahora podemos usar la última técnica que ha implementado una universidad en cualquier lugar del mundo.

Hay que cambiar o estamos fuera por más que creemos marcos regulatorios para garantizarnos el trabajo durante unos años.