Álvaro Barbero, Chief Data Scientist del IIC: "poco a poco hay que empezar a confiar en los algoritmos"

Hablamos con el experto en Data Science y Machine Learning, Álvaro Barbero Jiménez, Chief Data Scientist del Instituto de Ingeniería del Conocimiento - IIC -, para discutir sobre los pilares del científico de datos, el estado de madurez analítica de las empresas españolas, cómo su vida ha cambiado después de obtener el segundo lugar de la pasada competición Texata 2015 Big Data Analytics World Championships, y mucho más.

Álvaro Barbero, actualmente dirige el departamento de científico de datos, y más específicamente, el área de Ingeniería Algorítmica del Instituto de Ingeniería del Conocimiento, -IIC, entidad española privada de I+D+i. En el IIC laboran decenas de expertos del mundo del análisis de datos. Sobre el caso particular del área dirigida por Álvaro, ésta se orienta más hacia la innovación e investigación, con el fin de resolver problemas o afrontar desafíos del mundo real, mediante técnicas del análisis de datos: "tenemos como misión que todas las investigaciones que hacemos son aplicadas", afirma Barbero.

Empezó estudiando la carrera de ingeniería superior en informática, con un alto interés por la inteligencia artificial y el análisis de datos - aunque en aquella época de estudiante todavía no se hablaba de Big Data- ya existían estas disciplinas académicas. Se animó a seguir con el máster en la Universidad Autónoma de Madrid y como continuación del máster, prolongó sus estudios hasta la elaboración de su tesis doctoral en temas de aprendizaje automático, el famoso Machine Learning, como él mismo lo menciona, finalizando en el 2011. A partir de esta fecha se incorpora como contratado al IIC, donde había venido colaborando desde la época de estudiante.

A continuación, la entrevista editada con Álvaro Barbero para Decideo en español.

¿Cuáles son las principales responsabilidades como Chief Data Scientist en el IIC?

Ahora me encargo de dirigir un área específica, llamada Ingeniería Algorítmica. Tiene ese nombre porque nos dedicamos al Data Science y Machine Learning, pero en general, a diseñar algoritmos para resolver problemas con aplicación a proyectos reales en empresas.

En el instituto se viene haciendo análisis de datos desde su fundación, hace prácticamente 27 años. El instituto se llama Instituto de Ingeniería del Conocimiento porque a este tipo de disciplina se le conocía como Ingeniería del Conocimiento; simplemente por eso. Estos nombres han ido cambiando. Luego se llamó minería de datos, después Big Data, y ahora se habla mucho de Machine Learning. Pero, en el fondo, la idea es la misma, es intentar usar datos como fuente de trabajo, intentar explotarlos de alguna manera útil.

Estamos tanto por filosofía como físicamente en la Universidad Autónoma de Madrid, pero tenemos como misión que todas las investigaciones que hacemos son aplicadas. Esto quiere decir que no estamos en el ciclo universitario de investigación básica cuyo objetivo es hacer publicaciones científicas. De vez en cuando si hacemos alguna publicación científica pero no es el objetivo principal.

La investigación que realizamos está muy orientada según las necesidades que puedan expresar nuestros clientes o los socios del IIC; y siempre en torno a esta temática de análisis de datos. Es cierto, que, al estar cerca de la universidad, intentamos estar al tanto de los nuevos avances que han ido cubriendo, tanto en tecnología software de Big Data como en los nuevos métodos y algoritmos del machine learning que van apareciendo, e intentamos incorporarlos en las soluciones que hacemos. Digamos que intentamos ser uno de los primeros en que este conocimiento que sale de la universidad, se pueda aplicar en proyectos reales en la empresa.

¿Cómo es un día de trabajo como Chief Data Scientist?

Normalmente es una mezcla de distintas tareas. Por un lado, trabajo mucho con las otras áreas del IIC, en evaluar propuestas que van llegando de los distintos clientes para ver cómo vamos a aplicar las técnicas que conocemos de análisis de datos en sus problemas.

También me encargo de dirigir los equipos de trabajo y de realizar trabajo técnico, de hacer desarrollo, programación. Por último, también hago difusión en el sentido de asistir a eventos, conferencias para hablar tanto de las cosas que realizamos en el IIC como de los temas de investigación en los que hemos estado trabajando y colaborando con otros equipos, como por ejemplo, con el equipo de machine learning de investigación de la Universidad Autónoma de Madrid.

¿Cómo está conformado el equipo que lidera?

Somos 8 personas. La mayoría son ingenieros y tienen algo mas además de su ingeniería. Como yo, hay una persona que también hizo el doctorado en Machine Learning; otra persona del equipo está haciendo su doctorado en este momento; luego tengo otras personas que tienen una doble titulación: en ingeniería informática y en matemáticas. Hay algún caso en el que también son matemáticos, pero tienen bastante experiencia en programación y en análisis de datos. En general, lo que intento buscar son personas que reúnan los dos perfiles; el perfil de informático, programador, alguien que sabe de bases de datos y que puede diseñar sistemas informáticos con un perfil más matemático; más ser capaz de entender lo que hay detrás de los algoritmos de machine learning. Que combinen estos dos perfiles.

¿Cómo define al Data Scientist?

Hay bastante debate primero en lo que es un Data Scientist porque cada institución lo puede definir a su manera, sesgándolo según sus intereses.

Creo que es una persona que debe tener estas dos ramas de conocimiento: la informática y las matemáticas; pero también tiene que ser alguien que sea capaz de entender un negocio en particular, banca, energía, o las redes sociales. Es decir, que se pueda acercar al negocio en el que ha proyectado tener el conocimiento y así ser capaz de llevar estas técnicas de análisis de datos a una aplicación real. Como parte de eso, es bastante importante que esa persona sea capaz de explicar y de comunicar el resultado de esos análisis que ha estado realizando. Digamos que serían 4 pilares:
Informática, matemáticas, habilidades de comunicación y capacidad de entender el negocio.

El Data Scientist, está catalogado como el mejor trabajo en el ranking de muchas listas ¿Cuál considera que sea la razón principal para tal consideración?

Hay dos factores que hacen atractivo este trabajo. Uno, es que de por sí, te permite trabajar en muchos sectores diferentes; el análisis de datos es una técnica digamos que general y cualquier sector en el que se trabaje con información, permite acercarse a ese negocio, aplicar lo que conoces y hacer algo de valor. Yo creo que para la gente que le interesa buscar una profesión en la que va a aprender cosas nuevas cada día, en la que te puedas ir moviendo, y hablar con gente de muchos sectores, es bastante interesante.

Por otro lado, yo creo que también, lo posicionan bastante alto en estos rankings porque ahora mismo hay una escasez de este tipo de perfiles. Hoy en día, ya hay bastantes escuelas de formación tanto online como presenciales, en másteres universitarios, que forman este tipo de perfiles, pero antes no era así. Entonces las personas que tenían estas capacidades eran escazas y se les valoraba muy bien, entonces, digamos que las empresas procuraban que estas personas estuvieran contentas con el trabajo a realizar.

¿Cómo adquirir las habilidades y conocimientos de un Data Scientist con la misma rapidez como se están moviendo las necesidades del mundo analítico?

Estoy de acuerdo que este mundo se mueve muy deprisa, entonces prácticamente cada año van cambiando las tecnologías que se están utilizando y yo diría que en un periodo de 5 años casi todo sería obsoleto. Si en 5 años, uno no se ha renovado, pues ya va aplicar con dificultad las herramientas que conoce.

Entonces, para todo esto, es fundamental estar en contacto con las comunidades del Data Science, Machine Learning, Bases de Datos y estar al tanto de qué se está haciendo, qué proyectos open source están surgiendo. Muchas de las tecnologías que se usan hoy en día en análisis de datos son open source. Es interesante ver en ese mundillo qué se está utilizando; también observar qué están haciendo tanto las startups como las empresas, qué tipo de tecnologías están adoptando. Eso digamos sería lo ideal para mantenerse actualizado.

Data Scientist, la profesión más sexy del siglo XXI, según The Harvard Business Review.  ¿Qué opina acerca de esta nominación para la profesión?

Yo no me imagino al lado de Leonardo DiCaprio, así al mismo nivel; pero si lo llamamos sexy en el sentido de atractivo, pues si es una profesión atractiva, no sé si la más atractiva, pero es interesante. En otras connotaciones no sabría ya decirte.

¿Con quién encaja mejor el Data Scientisit dentro de la organización?

Me lo han peguntado más de una vez, y yo creo que depende mucho de la estructura de cada organización en particular. Esto puede ser una respuesta muy ambigua pero yo creo que es así. Lo que si tengo claro, es que, si una empresa no tiene un equipo de Data Scientists y quiere empezar, normalmente debería empezar con un grupo lo suficientemente grande, y no con solo una persona, porque una única persona probablemente se encuentre perdida dentro de una estructura organizacional. Necesita un grupo para que mantenga una cierta inercia.

¿Están preparadas las empresas para contratar este grupo de Data Scientitst?

Yo creo que han cambiado un poco la mentalidad. Sí que es verdad que se lleva muchos años, tanto en España como en otros países, haciendo una labor de evangelización. Nosotros lo llamamos así, -yo creo que es una palabra bastante bien escogida-, porque es la idea de ir dando la buena noticia de que ha llegado el Big Data y va resolver problemas. Este mensaje, poco a poco, lo han ido acogiendo las empresas, de que algo está pasando en este mundillo y parece que puede ser útil entrar ahí.

Pero lo que yo creo que ya no está tan claro, es cuál es una buena manera de empezar. He visto varios casos de empresas grandes que deciden empezar construyendo un gran Data Lake de información, - es un paso importante, el tener la información de la empresa bien estructurada y limpia- y es necesario, porque tú vas a trabajar con datos. Si los datos no están ordenados y están sucios, pues empezamos con malas herramientas. Pero luego digamos, yo no veo que esté tan claro el plan a futuro a partir de ahí. Una vez que está la información organizada, qué es lo que se va a hacer después; entonces yo creo que en esa línea lo que es importante, cuando se empieza a trabajar en el mundo de los datos en una organización, es que hay que tener algunos casos de uso, unos pocos muy claros, para probar si realmente el proyecto de datos puede añadir algo de utilidad a la empresa e intentar invertir en hacer que eso funcione, sobre todo porque si eso se consigue pues ya es un justificante para seguir aumentando el equipo de data scientist y seguir haciendo proyectos en esta línea. Pero si se empieza demasiado a lo grande hay peligro de fracasar y entonces ya será muy difícil cambiar, por las propias expectativas que se crean dentro de la empresa, de que luego de tanto hablar de Big Data pues en parte no se ha conseguido nada.

¿Qué sectores en España, son los que lideran la contratación del Data Scientist?

Por la percepción que observo, efectivamente en banca sí que se están buscando estos perfiles. Tal vez no en todos los campos dentro de este sector. Dependiendo si estamos hablando de inversión, riesgo o fraude. El interés que hay por contratar estos perfiles es diferente; algunos de estos campos son más tradicionales; todavía están un poco por detrás.

Donde sí que estoy viendo mucha demanda ahora es por parte de empresas de consultoría en informática; yo creo que se están dando cuenta de que esto es un nuevo campo que pueden explotar, y los expertos consultores en estos temas pueden ser de interés para ellos porque lo están demandando muchas empresas y están intentando capturar perfiles que tengan el potencial para desarrollar estos proyectos.

También diría que en instituciones públicas. Ya hay varias ciudades en España que se están moviendo hacia una cultura de open data. Si no me equivoco, el Ayuntamiento de Zaragoza tiene un portal de open data bastante interesante, y como en muchas otras ciudades de España, están realizando iniciativas en esta línea.

Hay otra vertiente en paralela, en Startups está apareciendo mucho la necesidad de estos perfiles, y tiene sentido porque muchas de las startups que han surgido en Silicon Valley y que ahora tienen muchísimo éxito, se basaban de alguna manera en datos o en machine learning. Estos modelos se están intentando replicar en muchos otros sectores.

¿Cómo clasifica a las empresas españolas de acuerdo con la madurez analítica?

En primer lugar, si tomamos como referente en temas de analítica, las empresas de Silicon Valley, tipo Google, Facebook, etc. que basan todo su negocio en análisis de datos, entonces, si nos comparamos con eso, yo creo que en España estamos todavía por detrás. No veo todavía empresas que tengan ese volumen de análisis de datos.

Sí que es verdad, que el mensaje de que la analítica de datos es algo útil y de valor, eso sí que está bastante claro. Y se está empezando bastante a trabajar, sobre todo, en la parte descriptiva de los datos, que tiene que ver con todo este proceso que comentaba, en primer lugar, de tener organizados los datos y estructurados y luego ser capaz de hacer consultas sobre esos datos para entender cómo está funcionando el negocio, dónde se pueden detectar problemas, etc. En ese nivel, yo diría que ya están entrando bastantes empresas.

Nosotros, -el IIC- nos especializamos más es en el siguiente nivel, el nivel predictivo. Tenemos ya unas líneas de negocios establecidas como, el sector Banca, pero también trabajamos en el sector energía, el sector salud, en el dominio de los recursos humanos y el de las redes sociales. En estas líneas ya tenemos algunos productos muy maduros; el producto más destacado que tenemos, es la solución Lynx un sistema de detección de fraude automático, funcionando ahora mismo tanto en España como en varios países de Latinoamérica, intentando prevenir el fraude de robos de tarjetas de crédito o de cuentas de acceso al banco. Otra línea también interesante que tenemos es en predicción de producción de energía eólica y solar ;estas clases de energía tienen muchas ventajas, pero uno de los inconvenientes que se tiene, es que no pueden producir energía a voluntad, depende de los recursos naturales y por tanto, para poder gestionarlas, algo fundamental es ser capaz de planificar con antelación cuánta energía va a producir un panel solar o cuándo se va a mover un rotor eólico. Tenemos soluciones predictivas que permiten ayudar en esa planificación. Son soluciones predictivas porque intentan detectar un dato que todavía no se ha recogido; mediante métodos estadísticos, o de machine learning, se intenta obtener eso.

Si es verdad que yo he oído hablar de machine learning desde hace 5 años, también es un concepto que está empezando a volverse de dominio público, pero yo creo que todavía son pocas las empresas que realmente están haciendo uso de estas tecnologías.

¿Qué roles son los que deberían implicarse por parte del cliente en un proyecto Big Data?

Seguro que debe participar alguien que conozca muy bien el negocio del cliente, porque digamos que, el objetivo final de un proyecto de análisis de datos es mejorar algún proceso de negocio. Esto puede ser, tanto automatizar algún proceso que se hace de manera costosa y manual u optimizar costes, algún objetivo en esta línea. Es muy importante que participe alguien que realmente conozca cómo está el negocio y dónde puede haber puntos de mejora. Y por otro lado también, a la hora de integrar la solución de datos en el propio cliente, debería participar alguien del apartado técnico. Alguien que pueda entender qué están desarrollando los ingenieros de datos y luego poder encajarlo dentro de sus sistemas.

¿Cuál considera como el mayor desafío para las organizaciones que incursionan en la economía basada en datos?

El primero es el que comentábamos antes. Cuando una empresa decide entrar en este nuevo sector, tiene que hacerlo teniendo en claro cuáles son los objetivos, intentar o empezar con proyectos pequeños y poco a poco ir creciendo.

Por la parte de llegar hacia el nivel predictivo, yo creo que la dificultad principal está en un cambio de mentalidad, porque digamos que, cuando se adoptan estas tendencias predictivas, hay esta sensación de que ya es un algoritmo o una máquina la que está reemplazando una persona para tomar ciertas decisiones. Esto crea ciertas inquietudes o desconfianzas de cómo puede estar funcionando o incluso llevar a debates sobre si esto va a producir pérdidas de empleo. Yo creo que hay que cambiar la forma de pensar para adoptar esto.

Al final, lo que hay que pensar es que este tipo de técnicas permite automatizar procesos que, de hecho, son bastante tediosos, o en algunos casos, que utilizando algoritmos se pueden conseguir ciertos grados de precisión bastante más altos de los que tendría una persona. Hay que cambiar la mentalidad en el sentido de que, poco a poco, hay que empezar a confiar en estos algoritmos, no en el sentido de hacerlo ciegamente, sino que se confíe en ellos, en base a pruebas exhaustivas, simulaciones, pruebas estadísticas y ver que efectivamente si funciona. Si no funciona, pues evidentemente no se utilizarían y se pasaría a probar otra opción para resolver ese problema. Pero ya son muchos casos que hemos visto nosotros en los que éstas técnicas funcionan. Yo creo que, es más, a que muchos expertos de negocio se acostumbren a esta nueva forma de trabajar, en la que estás combinando, un poco lo que son decisiones puramente humanas o por experiencia del negocio, con decisiones de apoyo de algún algoritmo.

Siendo líder en el dominio del Data Science, ¿qué consejos daría a las empresas que adoptan las prácticas de la ciencia de los datos en el seno de sus organizaciones?

Yo creo que es fundamental que quien vaya a dirigir el equipo Data Science tenga conocimiento de cómo funcionan estas nuevas tecnologías que están apareciendo y en qué están fundamentadas. Yo veo que, en los cargos directivos sí existe conocimiento de que se están realizando proyectos interesantes en este mundo del análisis de datos, pero es un conocimiento bastante elevado, a nivel de negocio y no tanto al detalle de realmente cómo se realizan estos proyectos. Creo que, a veces, existe un salto muy grande entre la percepción que se tiene de cómo funciona un proyecto de datos, a nivel de dirección y al nivel del trabajo que realizan los técnicos, respecto a sus trabajos en el día a día; yo creo que ese salto -gap- hace difícil que los proyectos funcionen.

¿Qué acciones entonces deben realizar para disminuir ese gap?

Probablemente, contar con gente experta que sea capaz de dirigir esos grupos de científicos de datos. Y volviendo al ejemplo de antes, empezar con proyectos concretos y no pretender hacer el súper proyecto de big data porque parece que es algo que está de moda, sino empezar poco a poco.

¿Qué beneficios ha obtenido como consecuencia de haber obtenido el segundo lugar en el Texata 2015 Big Data Analytics World Championships?

Cuando estuve en Texata en el 2015, coincidí también con el ganador de la versión anterior, a quien le hicieron esta misma pregunta. Lo que él decía, es que la principal diferencia que él había notado, es que ahora la gente lo escucha en alguna reunión o ponencia. La gente está dispuesta a escuchar porque ya eres un referente; la verdad es que yo también he notado que me escuchan.

Además de esto, he obtenido muchas más visitas a mi perfil de LinkedIn, traducido en todo tipo de ofertas. Tanto ofertas de empleo como ofertas de docente. Ahora mismo estoy ofreciendo lecciones de métodos de machine learning en cuatro escuelas; antes ya realizaba este tipo de labores como docente, pero desde entonces después del Texata, he tenido más visibilidad; a nivel personal me ha aportado eso.

Ahora, mi intención es participar en Texata 2017. Espero que para este año sea una competición más dura.

 ¿Cuál considera como su mayor contribución bajo el rol de Data Scientist?

He trabajado en muchos proyectos desde que he empezado a trabajar en este puesto. Por ejemplo, en la solución de fraude, he colaborado en parte; en el sistema de predicción de energía solar, también estuve colaborando durante una época.

Hay otro proyecto muy interesante, ahora mismo no está desplegado en ningún cliente, pero yo creo que fue una experiencia muy interesante cuando lo estuvimos desarrollando. Básicamente, es un sistema que permite optimizar cómo hay que repartir el efectivo entre distintas sucursales bancarias; a mí, particularmente, me gusta bastante como lo hemos construido porque se tiene que adelantar, con soluciones predictivas, qué va a ocurrir, la demanda que va a existir del efectivo en las distintas ciudades en cada cajero, cuánta gente va a pedir dinero en sus cajeros y, por otro lado, el sistema da un paso más allá, y puede dar recomendaciones directamente de qué momentos son los más adecuados para realizar los transportes del efectivo; teniendo en cuenta los costos que influyen en el sistema: qué días va a ser más barato el realizar el transporte, cuánto se pierde si el dinero está inmovilizado en una sucursal, cuál es el coste en reputación si el cajero no tiene suficiente efectivo y el cliente tiene que desplazarse a otro lugar. Es un aporte, por lo menos al sector bancario, bastante interesante porque permite ahorrar viajes, conseguir que los cajeros siempre tengan efectivo disponible, etc. y esto lo hemos estado desarrollando en forma de proyecto piloto y al día de hoy seguimos trabajando en ello, con el objetivo de que pueda estar implantado.

¿Cuál es su visión de la proyección del rol de Data scientist?

Por una parte, cada vez más las empresas están demandando estos perfiles, y, por otro lado, cada vez más, existen másteres o escuelas de formación en las que se están formando estos perfiles. Entonces yo creo que va llegar a un punto en el que el análisis de datos va a ser una especialidad más dentro de lo que es la informática, al igual que hoy en día, hay dentro de los expertos en informática, es decir, existen expertos en desarrollo web, expertos en bases de datos, en herramientas de back office, etc. Lo mismo va a ocurrir aquí, y probablemente por incrementarse el número de Data Scientist sus sueldos empiecen a bajar. Creo que los expertos, que tengan conocimientos en esta disciplina, lo van a poder aplicar en todos los campos.
Al igual que, hoy en día, casi cualquier empresa debe tener una página web o sus sistemas informáticos internos, yo creo que b[va a llegar el día en que lo normal será que todas las empresas realicen análisis de sus propios datos], ya sea con recursos internos o ya sea subcontratándolos a otra empresa o consultoría.

¿Y sobre el IIC?

Se fundó hace 27 años y fue una iniciativa del Ministerio de Industria de España con el objetivo de, precisamente, trasladar el conocimiento que surge desde la universidad, en formas de proyectos de innovación a diferentes empresas españolas.
Cuando se creó, había varios socios participantes, uno de ellos es la Universidad Autónoma de Madrid, que es donde tenemos nuestras instalaciones, y a lo largo del tiempo, han ido cambiando. Al día de hoy son 4 socios, además de la universidad está el banco Santander, Gas natural Fenosa e IBM.
Los socios nos guían hacia qué áreas de innovación serían interesantes explorar; por ejemplo, hace algunos años, creamos un área de análisis de texto y forma parte de la división de redes sociales. La iniciativa de esta área fue una recomendación de los socios. Al día de hoy, es cierto que, en muchos proyectos tenemos que explotar datos tanto tabulados estructurados como datos en lenguaje natural. El haber invertido en desarrollar esta área y los conocimientos que allí tenemos, nos está sirviendo al día de hoy para trabajar en esta línea. La labor que tienen los socios es mas de orientación y hacia donde deberíamos enfocar nuestros esfuerzos de innovación; aparte de eso, somos bastante independientes; al día de hoy no nos financia ni el ministerio, ni la universidad, ni ninguno de los socios; sino que tenemos la misión de que con los productos y servicios que generamos podamos auto abastecernos y autofinanciarnos y en invertir en realizar nuevas líneas de investigación, nuevos proyectos pilotos, etc.
Somos aproximadamente 100 personas. El grupo más grande es el de banca, con 40 personas y el resto está distribuido en las diferentes áreas que hemos ido comentado.