Etapas del duelo para científicos de datos y de TI (Segunda Parte)

logrando que el código libre funcione en las corporaciones paranoicas.

Por Stewart Robbins and Greg Loxton, consultores de Industria en Teradata.
En la primera parte de este artículo, hicimos referencia a las dos primeras etapas del duelo y nos detuvimos en la segunda habiendo avanzado un poco, desde la perspectiva de los científicos de datos, en la batalla para conseguir el acceso a fuentes de código abierto y a funcionalidades de la red corporativa.

Sin embargo, aunque tengan éxito en su empeño, los software de código abierto “gratuitos” tienen que ser instalados y administrados por el departamento de TI, que también tiene el control de cambios. Todo esto requiere un presupuesto -¡una idea difícil de vender dada la expectativa inicial de que no habría ningún gasto de capital, pero sí una gratificación instantánea! Esto nos lleva a la siguiente etapa en el proceso del duelo: la depresión.

Etapa tres: Depresión:

Pelear por una solución que satisfaga todas las necesidades al mismo tiempo -alternativas actuales y flexibles que permitan a los científicos de datos contar con conocimientos rápidos y al día, pero que también se ajusten a los requerimientos del departamento de TI- demanda mucho tiempo y es agotador. Eventos inesperados, como costos adicionales que no habían sido considerados con anterioridad o que ocurren a último momento, deprimen a todos los involucrados. Con frecuencia, esto se traduce en un estancamiento entre la administración y los empleados y el proceso se detiene inevitablemente sin que se alcance una solución real.

En medio de la desesperación, soluciones de corto plazo como ValidR lucen atractivas para afrontar el trabajo. Sin embargo, los científicos de datos deben trabajar con sus departamentos de TI y con sus compañeros del equipo comercial para implementar una solución que pueda utilizar la explosión de herramientas analíticas y motores, así como para atender los múltiples casos de uso requeridos.

Una solución a más largo plazo ha surgido con la aparición de las plataformas analíticas, que están diseñadas para empoderar a la comunidad analítica para que construya y ponga en operación la analítica que permita manejar la innovación en el negocio.

Por ejemplo, Teradata proporciona datos integrados, un ambiente analítico que ofrece funciones y motores a escala, que permite a los usuarios construir fácilmente y apoyar a sus herramientas de analíticas e idiomas preferidos.

¿Pero cómo podemos lograr que estos nuevos programas y herramientas estén en operación? En esa instancia los científicos de datos y los profesionales de TI pueden trabajar juntos para presentar un caso de negocio viable.

Los costos son fáciles de explicar, pero ¿qué sucede con los beneficios? Bueno, todo se reduce a los casos de uso que el científico de datos está tratando de atender. Entonces, por ejemplo, si la detección de fraude puede mejorar un 10 por ciento al usar una nueva suite de modelos de aprendizaje automático, eso tiene un valor que puede ser medido.

El enfoque típico es incluir la mayor cantidad de los casos de uso que sean requeridos para alcanzar el retorno en el límite de inversión para su organización. Todos los casos de valor son mucho más convincentes para los responsables de la aprobación si involucras a alguien del departamento financiero en el proceso de cálculo. Porque, de esa forma, ¡esos serán “sus” números también!

Entonces, se puede ver una luz al final del túnel y la depresión experimentada al principio tendría, con suerte, que ir cediendo -con lo cual llegamos a la última etapa…

Etapa cuatro: aceptación

Es importante que los científicos de datos y los equipos de seguridad informática no se fíen de soluciones puntuales y que trabajen en conjunto para encontrar respuestas de largo plazo. Esta última etapa explora otras soluciones que una organización que mire hacia el futuro debe incluir en su arsenal.

Asumamos que hemos solucionado el problema de incorporar las herramientas de código libre al ecosistema corporativo. Una vez que el problema está resuelto, contará con el seguimiento del científico de datos que dirá algo como:

“Sería genial si pudiéramos añadir Python a la pila”.

Y luego: “Nos gustaría experimentar con Inteligencia artificial

Debe tenerse en cuenta que cualquier científico de datos que se precie quiere tener vía libre para producir lo que sea que acabe desarrollando. Entonces, ¿cómo puede crear una organización un espacio para científicos de datos aventureros que prueban nuevos juguetes a la vez que permite al equipo de TI mantener a salvo a la organización de los problemas que puedan resultar, mientras aprende además algo sobre las exigencias de las nuevas capacidades de código abierto?

Las soluciones en la nube pueden ayudar a cubrir las necesidades de los científicos de datos al usar la nube para crear laboratorios de datos independientes. Esto les permite crear ambientes usando las más recientes versiones del software y del conjunto de herramientas compatibles mientras utilizan las estructuras de datos y los perfiles de seguridad de los sistemas de producción de nuestros clientes actuales.

Las empresas pueden luego importar conjuntos de datos definidos a estos laboratorios para cualquier trabajo ad-hoc o experimental que los científicos de datos necesiten hacer.

Una ventaja importante de la opción de la nube es la posibilidad de escalar o minimizar la capacidad de procesamiento analítico, en función de la demanda. El tipo de trabajo desarrollado por los científicos de datos implica que la elasticidad de la demanda de recursos es a menudo muy alta, de forma que la flexibilidad de la nube proporcione el modelo de trabajo perfecto para esos tipos de carga de trabajo de laboratorios de datos, test y desarrollo.

Esto vuelve mucho más sencillo el desarrollo del caso de negocios para cualquier instancia del laboratorio -adquieres más por tu dinero cuando lo necesitas. Se parece un poco a rentar un lindo carro para tus festividades.

Todo esto está también alineado con la arquitectura futura -de forma que cuando actualicemos el entorno del negocio podremos traer de vuelta in-house a esos usuarios sin necesidad de que ellos cambien una sola línea de código.

La seguridad es vista a menudo como el problema número uno cuando se considera una oferta en la nube. Sentimos que el énfasis de los vendedores de la nube en seguridad significa que esto no debe ser un problema si se sigue su guía.

Esto requiere, sin embargo, un cambio en el foco de los equipos de TI; al alejarse de la administración de plataformas en el lugar y acercarse a las políticas de transferencia de datos y protocolos de almacenamiento, tales como encriptación -el proceso a través del cual se sustituye un elemento de datos sensible por uno equivalente, no sensible que no tiene un valor explotable.

La mayoría de las plataformas en el lugar permiten el acceso remoto -y no estamos seguros de que esto confiera ventajas mágicas de seguridad para la oferta de los mayores distribuidores. Este enfoque también permite manejar el aislamiento de los sistemas de producción sin manipular los centros de datos.

Resumen

Al atravesar estas etapas del duelo, hemos intentado sugerir una mezcla de acciones, proyectos y enfoques que permitan trazar una senda a través del duelo del código libre hacia la innovación y transformación del negocio, tanto para los científicos de datos como para sus colegas en TI.

¿Funcionará esto en su organización? Con fortuna, algunas ideas lo harán -¡si existiera la solución perfecta, no habríamos tenido que escribir esta serie de artículos! Nos interesa mucho saber qué se llevaron los lectores de estas reflexiones.