7 cosas que Big Data no va a resolver
septiembre 29, 2014
Technology
3 Comentarios

A veces creemos que Big Data es una especie de panacea, cescuchamos el término y dejamos volar nuestra imaginación convirtiéndonos en víctimas de nuestras más absurdas fantasías profesionales para creer, por pura fe, que todos nuestros problemas están resueltos para darnos cuenta pronto que estábamos equivocados, encontrando muchas cosas que Big Data no va a resolver. A continuación las 7 cosas más comunes que creemos Big Data hará y en realidad no hace:

1) Tus problemas actuales

Siempre escucho historias de éxito en las que el uso de técnicas de Big Data ayudó a alguna empresa a resolver problemas críticos que estaban enfrentando, la mayoría de estas historias son contadas por quienes vivieron el proceso desde la toma de decisión hasta la feliz resolución del problema. Como dice el dicho: “La historia es contada por los ganadores”; en muchas ocasiones el ego nos hace creer que tomamos la decisión correcta en el momento correcto para solucionar un problema puntual cuando en realidad sólo tomamos una opción al azar, o peor aún, tomamos todas las opciones por la desesperación de no saber como resolver el problema; y si tuvimos suerte, una de esas decisiones fue usar Big Data.

Las cosas suceden más o menos así, por poner un ejemplo: Una empresa sabe que tiene serios problemas con el manejo de la atención a clientes en post venta, algunos actores específicos han detectado ciertas fallas en el área de atención a cliente telefónico, otros detectan el problema en los procesos que el proveedor de telemarketing sigue, otros aseguran que el problema está en la agencia de social media management que está llevando mal la cuenta, algunos listillos aseguran que el problema está en la cultura de la empresa y otros tantos culpan a la escandalosa falta de lealtad de los Millennials.

Nadie sabe en realidad, sólo se imaginan, tienen muy pocos datos para tener la solución ¿Qué digo la solución? ¡No saben ni siquiera cual es el problema!. Han visto desfilar consultores con décadas de experiencia, expertos con un par de casos de éxito bajo la manga, gurús que escriben en su revista de preferencia o cualquier combinación de estos, han recibido cientos de consejos, “soluciones” de software o procesos costosos y siguen sin saber lo que en realidad está pasando.

Un buen día alguien dentro de la organización decide implementar un proceso estocástico para analizar los datos internos y externos de la empresa; en ocasiones el objetivo es sólo estudiar un comportamiento en particular, como el nombre de la marca en las redes sociales, el sentimiento general de los empleados hacia la empresa o la ponderación de los problemas comunes en la documentación de casos cerrados (y digitalizados) de los últimos 10 años. Sea cual sea el caso, se designa a un responsable del análisis de la información, el responsable empieza a utilizar las herramientas de minería de datos pertinentes, analiza la información, crea nuevas hordas de conceptos informativos, KPIs, fórmulas de análisis asintótico y pasa la mayor parte del tiempo aterrizando estos datos en hermosas gráficas de barras, líneas y pays.

Desde los primeros resultados, además de obtener difusamente los KPIs que le pidieron inicialmente, obtiene grupos de datos relevantes para casi todos los departamentos y áreas dentro de la organización; uno de estos grupos de datos en particular describe el comportamiento de los usuarios desde hace 10 años a la fecha, aprovechando el Procesamiento Natural del Lenguaje y el cruce de datos de bases de datos internas y redes sociales; los análisis arrojan claramente que la problemática está en la relación que tiene la marca con los nuevos valores morales recientemente potenciados por la globalización y el flujo de la información en internet.

Es entonces cuando todo mundo enloquece. Los que culpaban a la cultura no caben de orgullo, los antagonistas de la agencia de social media exigen un cambio inmediato de proveedor, los que puntualizaban sobre los errores en áreas internas de la empresa llenan los calendarios de juntas y los que escrutinaban a los proveedores de telemarketing de atención al cliente tienen 10 propuestas de mejores empresas que harían mejor el trabajo. Todos dicen: Se los dije, Tenía Razón

La verdad es que sí, todos tenían razón; la realidad es que nadie la tenía. Enseguida, todos los involucrados llenos de razón empiezan a hablar de las maravillas del Big Data con sus congéneres, en sus gremios y congresos, de como (Me cito a mi mismo en el primer párrafo): “El uso de técnicas de Big Data ayudó a alguna empresa a resolver problemas críticos que estaban enfrentando”, de como actuaron inteligentemente cuando lo descubrieron y de como el análisis les dio la razón. A todos nos gustan los sistemas que nos dan la razón.

Lo que casi nadie dice es que todos se imaginaban algún escenario difuso y lo suficientemente abstracto como para que fuese imposible de implementar cualquier solución hasta que tuvieron algo mucho más concreto, un análisis real que apuntó a los orígenes y soluciones reales. Muchos tampoco mencionan lo lejos que están de terminar de revisar toda la información obtenida y que la generación de información es más veloz de lo que ellos tardan en analizarla.

Y por supuesto, mientras otros presumen, aquel responsable de analizar la data, aquel héroe olvidado, mientras otros presumen sus logros, está encontrando problemas mucho más relevantes, algunos que requieren atención urgente, algunos que salvarán a la empresa o la terminarán de consolidar, y todo gracias a que la angustia de alguien permitió que la información se empezara a analizar con técnicas de Big Data.

En conclusión, los problemas en una organización están ahí, todos los sabemos que existen, algunos nos imaginamos de donde vienen y cuando se hace un análisis de la información con algoritmos estadísticos de Big Data siempre van a salir a flote y van a apuntar lo obvio, además van a apuntar a nuevos problemas, muchos de ellos difíciles de entender, otros difíciles de conceptualizar, algunos difíciles de creer; pero lo importante es saber que las técnicas de Big Data no resuelven esos problemas, sólo los exhiben y los sacan a flote, problemas nuevos, problemas de los que muchas veces no queremos saber.

2)El manejo de tus datos

Regresemos al ejemplo anterior para hablar de este punto. Imaginemos una CMO que, después de este éxtasis de conocimiento recién experimentado por los incipientes logros obtenidos por el uso de Big Data, empieza a experimentar una resaca, una especie de cruda moral informativa en la cual se da cuenta que, aunque han logrado sintetizar millones de combinaciones en KPIs, la cantidad de estos sigue siendo abrumadora. No se da abasto con la cantidad de datos que tiene que analizar, los recien asignados analistas no tienen la capacidad de procesar todos los interesantes y relevantes datos que han obtenido y aunque el equipo crece, cada vez se requiere de más personas para analizar la información. El número de KPIs a tomar en cuenta crece más rápido que su capacidad para asimilar la información, es un Caos.

El uso de Big Data no es, ni va a ser un alivio para los analistas, sean de Marketing, Sistemas, Operaciones, Ventas o Producción, generalmente es lo contrario, más trabajo. Las técnicas de Big Data utilizan todas las fuentes posibles para sintetizar grandes cantidades de información, esta síntesis  se convierte en más información, la fuente y la síntesis sumadas se convierten en aún más información, es decir: a mayor información analizada, mayor información obtenida y a mayor información obtenida mayor información analizada ¡Es como intentar volar, jalándose de los pelos!

Es por esto que una organización debe prepararse antes de implementar sistemas de Big Data. Debe entrenar a su gente, confiar en los responsables, confiar en que puedan decidir qué información tomar en cuenta y qué información desechar (La información desechada también es una nueva fuente de información para analizar) y saber que en algún momento alguien va a decidir pasar por alto información que después crecerá en grado de relevancia (Sucede bastante, de hecho) y que esto, además de representar un análisis valiosísimo para la organización, también representa más trabajo

Local regression

3)Tus problemas de seguridad

Esto es simple. Mientras menos tengas menos te pueden robar.

En los puntos anteriores he intentado dejar claro que un sistema de análisis de Big Data genera, de manera colateral, un crecimiento en la información logarítimicamente proporcional a la cantidad de KPIs analizados. Esto podría representar un aumento en la información sensible existente de la organización, aunque a veces podría ser también una síntesis con tendencia a la baja. Lo importante en este punto no es la cantidad, es la velocidad a la que cambia esa información; porque, aunque estemos hablando de pocos datos sintetizados a través de complejos algoritmos o de muchos datos obtenidos por medio de uno simple (Como una suma), la cantidad de veces que esos datos cambiarán durante el periodo en el que podamos explotar la información es enorme.

Por lo tanto, parafraseando: La cantidad de veces que la información analizada utilizando Big Data puede ser robada, usada para fines malévolos y/o corrompida intencionalmente, es muy grande.

Ahora, regresando a lo básico: Se denominan sistemas de Big Data a aquellos en los que el tiempo que se requiere para analizar la información es mayor al tiempo que le toma a la información cambiar. Esto le suma importancia para generar algoritmos veloces y optimizarlos constantemente. Ahora, según Toomas Kirt, los análisis de seguridad, corrupción o mal uso de un sistema tienden, inminentemente, a hacerlo más lento; lo cual contradice el objetivo principal de los algoritmos.

En varias ocasiones he presenciado intentonas de sistemas que pretenden utilizar algoritmos estocásticos con grandes volúmenes de información que terminan volviéndose obsoletos antes de ver la luz debido a los requerimientos de seguridad de los dueños de la información. Y aunque los retos de seguridad que implica el manejo de grandes volúmenes de datos han empezado a franquearse exitosamente en los últimos años, todavía falta mucho avance en este sentido. Es por ello que cuando nos movemos por los parajes del Big Data debemos saber que no podemos ir con la armadura bien puesta y todas las defensas, será como estar desnudos en un campo minado, por esto es importante recordar que el valor que tienen estos análisis siempre es mayor a las pérdidas que se pudiesen generar por problemas de seguridad. Es como tirarse de un trampolín, no se puede pensar 2 veces.

4)Tus costos de tecnología

A veces la aparente falta de sentido de perentoriedad de los equipos ajenos o de los propios subalternos es frustrante para las esferas centrales de una organización y aparentemente porque las faenas operativas de la organización tiene baches o engranes mal aceitados que actúan como cuellos de botella. Y, aceptémoslo, la mayor parte de estos cuellos de botella se encuentran en los órganos más tecnológicos del proceso, que tienden a ser las más enredados o confusos.

Irónico ¿no?. A veces pareciera que la tecnología complica las cosas, pero cuando imaginamos como serían las cosas sin esas herramientas o servicios nos damos cuenta que son cruciales para nuestro trabajo y que no podríamos hacer ni la mitad de las cosas que hacemos hoy entonces las vemos como un mal necesario.

El sueño, la fantasía de muchos cuando están a punto de implementar Big Data en algún rincón de su organización siempre es que ahora la tecnología va a ser algo emocionante, con luces como en su película futurista favorita (De hace 30 años) y con costos tan bajos como lo son hoy los radios portátiles o las memorias usb. Al contrario de esto, los procesos de Big Data tienden a potenciar los costos de las operaciones cuando estas no están preparadas para que los sistemas de análisis las manoseen pervertidamente; es por ello que la mayoría se ha limitado a analizar la web semántica, las redes sociales y los servicios de streaming de información especializada, porque estos universos han sido construidos para ser analizados, es su propósito; y aún así no es nada barato hacerlo.

Luego está el costo que implica entrenar a los analistas, programadores, administradores de bases de datos y operadores de sistemas. Tiempo después se descubre lo que cuesta cambiar a un equipo que no es entrenable para estas cuestiones. Los perfiles de los analistas de estadísticos, programadores que dominen las técnicas de cloud computing necesarias para las técnicas propias de Big Data, Estrategas de Marketing que sean nativos digitales y Creativos que tomen en cuenta los resultados de un análisis antes que su intuición artística, son difíciles de encontrar, pero indispensables en dichos procesos y muy costosos si se pretende que formen parte de la nómina de la organización, además que no tendrían mucho trabajo, a menos que el Core-business de la organización sea propiamente la Transformación Digital.

En conclusión: El costo de tener un equipo interno que sepa generar, administrar, alimentar y aprovechar un sistema de Big Data dentro de la organización puede ser muy alto. Aunque siempre existe la opción de acercarse a un equipo especializado para que sirva de aliado para apoyar a la organización en el manejo de su información digital.

 

5)La calidad de tus datos

Pondré estos 3 casos como ejemplo práctico para poder explicar en cualquier disciplina a lo que me refiero con este punto:

Una persona que haya mandado a hacer un estudio de mercado, de esos de la vieja escuela donde una docena de encuestadores salen a los parques públicos de diferentes ciudades a hacer preguntas anteriormente planeadas para recabar la información de la mayor cantidad de individuos previamente considerados como target y obtener la mejor calidad de datos posibles, reunirlos y llegar a una conclusión.

O un individuo que haya hecho una auditoría completa a un departamento o proveedor donde se analizan los datos almacenados durante largos periodos de tiempo (3, 5, 10 años)  contando [o no] con la cooperación de los auditados para luego tener un panorama realista de los acontecimientos y poder tomar decisiones específicas y puntuales.

O bien, alguien de IT que haya planeado la arquitectura de pruebas de calidad para un sistema informático que debe tener un margen de fallos mínimo por la naturaleza del proyecto (Health, Finance, etc) y debe de escrutar minuciosamente todo, hasta las últimas consecuencias.

Cualquiera de los individuos en estos ejemplos estará perfectamente consiente de lo exacto que se puede llegar a ser en este tipo de análisis. La belleza con la que los sistemas tradicionales de análisis estadístico funcionan es, en parte, por lo afinados que están desde hace tanto tiempo y, por otro lado,  lo simples y claros que son sus procesos hace que sintamos que vale la pena la espera, a veces muy larga, para la obtención de estos análisis. Y aunque, durante mucho tiempo, no se cuestionaron esas tardanzas, con la llegada de la era de la información la paciencia se volvió algo relativo.

Luego entonces, cuando nos enfrentamos a análisis estadísticos semi inteligentes hechos por computadora de grandes volúmenes de información a.k.a. Big Data, tendemos a esperar la misma calidad en los resultados, pero sin la larga espera, ya no tenemos paciencia porque sabemos que las máquinas pueden procesar esos datos miles o millones de veces más rápido que los sistemas humanos.

El error está en esperar, con un dejo de romanticismo, que el resultado sea igual de exacto, el proceso igual de inductivo y la entrega de la información igual de humana.

Los datos no son exactos, son datos, son como vacas en un rancho industrializado, se procesan, una por una, a velocidades industriales, mecanizadas, no hay ojos humanos que las analicen inductivamente, no hay sentimientos, gustos o aversiones, son simplemente datos con un montón de falsos positivos. Y aunque, muy grande ha sido el esfuerzo en el mercado de la minería de datos por incrementar la calidad de los mismos, todavía se está en pañales. Para darnos una idea, los sistemas de procesamiento natural del lenguaje apenas alcanzan comprensiones linguísticas comparables a las de un niño de 4 años, no entienden de sarcasmo y tienen que ser entrenados toda la vida para alcanzar porcentajes por debajo del 70% de aserción.

En conclusión, NO esperes que las técnicas de Big Data mejoren la calidad de los datos que los viejos y confiables sistemas a los que estamos acostumbrados devuelven. Recordemos que Big Data nació de las cantidades enormes de información que, por la digitalización global , se empezaron a producir. El Big Data es cuestión de velocidad, de llegar primero, de comer antes de que otros se lo acaben, no de calidad en los datos, aunque espero en poco tiempo estar equivocado, el avance de la tecnología y el continuo mejoramiento de la calidad logrará mejoras considerables pronto, aunque ese tiempo aún no ha llegado.

 

6)Que tus datos sean conclusivos

He visto algunas veces a equipos de análisis de Big Data con poca experiencia quedarse mudos ante una reclamación que lleva adjunto otro análisis hecho con otras herramientas o considerando otros parámetros. A veces es la misma herramienta con parámetros ligeramente distintos, a veces es otra herramienta con los mismos parámetros (aparentemente) que indica lo contrario a los análisis presentados por el equipo. Lo primero que vemos es la vergüenza en sus rostros, luego empiezan a mirarse unos a otros sospechando que alguien mintió o no hizo bien su trabajo, después empiezan a culpar a las herramientas y rara vez se menciona la naturaleza estocástica de los datos.

Los equipos experimentados saben bien que se enfrentarán a estas reclamaciones; siempre salen al mercado nuevas herramientas que dicen mejorar la exactitud de los datos presentados, desde los algoritmos de procesamiento natural del lenguaje hasta la velocidad con la que recaban información, pasando por nuevas maneras de encontrar KPIs o incluso nuevos indicadores. A veces salen a la luz herramientas que no tienen nada nuevo en su núcleo y sólo mejoran la manera en la que se presentan los datos. A veces son herramientas hechas a la medida, y un cambio ligero en el comportamiento o la infraestructura que las soportan lo que ocasiona la confusión.

Cualquiera que sea el caso, la manera en la que el usuario final visualiza los datos puede cambiar, a veces drásticamente y eso puede generar muchas dudas sobre el equipo, las herramientas utilizadas o, incluso, las fuentes de datos. La respuesta es simple más no sencilla. En realidad los datos sintetizados resultantes tienen un nivel bajísimo de exactitud aunque los datos minados aún sin procesar sean sumamente exactos. Aclaro que esto no significa que no se pueda confiar en los datos, un nivel bajo de exactitud no es lo mismo que una exactitud baja. Es por ello que al interpretar los datos hay que tomar en cuenta la abstracción y la figura apreciativa de los resultados.

Pero entender la naturaleza no-conclusiva de los análisis genera otro problema más grave: Al dar por hecho que los datos no siempre son conclusivos, se minimizan y pasan por alto pequeños errores. Y el gran problema con esto es que en un sistema de análisis de grandes cantidades de datos, los errores humanos son comunes; la brecha que existe entre la manera en la que un analista, un cliente, un usuario y un programador interpretan las operaciones puede ser muy grande. Estamos a merced de la interpretación de cada uno de los involucrados, no es que haya una mejor que otra, incluso la interpretación del solicitante puede tener missing points y, en la mayoría de los casos distar mucho de la interpretación de los programadores o arquitectos de información. Esto ocasiona problemas en cálculos de datos que pueden resultar en divergencias enormes. En otros casos  los analistas, programadores o arquitectos comenten errores de cálculos humanos, omisiones accidentales difíciles de medir. Por éstas dos razones, debemos analizar minuciosa y constantemente los resultados en cada iteración, lo mejor es desconfiar de la no-conclusividad aparente de los datos. No todos los errores son falsos positivos.

Al final del camino, para muchos esto se convierte en todo un arte. Distinguir un problema de apreciación de un error de cálculo puede ser muy costoso para organizaciones que no cuentan con un equipo dedicado y con experiencia amplia y basta que abarque desde las técnicas de minería de datos hasta los conocimientos necesarios para entender la interpretación desde puntos de vista no computacionales, como lo son el Marketing, las ventas, la estrategia de negocio y los cruces financieros de las mismas. Tener un equipo así puede ser muy costoso para una sola compañía, la única manera en la que es viable por costo-beneficio contar con un equipo confiable para la obtención, el análisis de información y la definición de una estrategia de marketing a través de los datos obtenidos es tener un socio comercial con experiencia, confiable y que cuente con los recursos humanos y materiales para cumplir con estas tareas. Sobra decir que en ktc hemos logrado avances importantes en todas estas cuestiones.

7)Algo más

Mientras escribía este artículo, posiblemente se gestó la octava, novena y enésima cuestión que Big Data no van a resolver, y para el momento en el que analicemos estas conclusiones seguramente se presentarán más. Es un excelente ejemplo de la velocidad a la que la información se crea y cambia; es por ello que te invito a que sigas investigando. Y si necesitas de ayuda, acércate a nosotros.

 

DOWNLOAD HANDBOOK