Las desventajas del `data discovery´

El denominado `data discovery´ en modo auto-servicio ha ocupado un papel determinante en la industria del BI durante los últimos cuatro años.

Se ha erigido como la clave para resolver numerosos problemas: desde el análisis de crecientes volúmenes y fuentes de datos; hasta la extracción de ideas aptas para el negocio procedentes de datos; pasando por el empleo pervasivo del business intelligence, consistente en poner la información adecuada en manos de todo tipo de usuarios y no sólo de las cúpulas directivas y de los analistas, ayudándoles a tomar mejores decisiones sin depender tanto de los departamentos de TI.

Esta aproximación autónoma al `data discovery´ está llamando la atención de la industria, aunque algunas de sus supuestas ventajas pueden resultar engañosas. Antes de adentrarse en el universo del ´data discovery´, la organización en cuestión debería considerar todas las implicaciones que puede traer consigo. Echemos un vistazo a las tres principales desventajas del `data discovery´ pervasivo:

Expertos vs coleccionistas de tendencias

Un artículo reciente del Financial Times, titulado “Big Data: ¿estamos cometiendo un gran error?” me hizo pensar sobre el problema de minimizar la importancia de confiar demasiado en sencillas herramientas de `data discovery´. Como señala el autor, los estadistas se han pasado los últimos 200 años “tratando de entender el mundo a través de los datos”. Hoy día contamos con muchos más datos y también con más herramientas para analizarlos, pero también han aumentado los obstáculos. Las sencillas herramientas que algunos aclaman todavía no pueden eliminar la necesidad de conocimiento con relación a la analítica de los datos.

Desde esta perspectiva resulta imperativo que las organizaciones analicen las habilidades que han adquirido para desarrollar análisis correctos y precisos antes de adoptar herramientas de `data discovery´ en modo auto servicio. Mientras tanto numerosas empresas ya están adoptando una cultura de toma de decisiones basada en los datos, pero no están prestando atención a los conocimientos que necesitan sus empleados para extraer adecuadas ideas de negocio procedentes de sus datos. Habitualmente las empresas no están exigiendo todas las certificaciones necesarias a sus analistas para validar sus habilidades, y éstos están tomando decisiones muy importantes basándose en datos, pero sin contar con el nivel adecuado de conocimiento.

Historias válidas vs historias erróneas

El denominado ´data storytelling´ es la nueva frontera del BI y la analítica. Al tiempo que los ´storyboards´ están sustituyendo a los tradicionales cuadros de mando y reportes, las empresas se están afanando en encontrar contadores de historias con talento. Las historias generan una vía más sencilla para que las compañías comprendan y recuerden la información, porque explican situaciones y problemas de forma coherente, exponiendo causa y efecto.

De todos es conocido que el cerebro humano proporciona sus propias causas y efectos, aunque éstas no existan (reacción conocida como `falsa ilusión´). De manera similar, los datos pueden proporcionar explicaciones causales aunque éstas no existan. Las historias erróneas de las que hablamos ocurren principalmente de dos maneras.

En primer lugar, cuando las correlaciones son interpretadas como causas. Es decir, aunque dos eventos ocurran al mismo tiempo, no significa que uno sea el motivo del otro. En lo que tiene que ver con los hábitos del consumidor, una errónea relación causa-efecto podría llevar a malinterpretar los motivos que despiertan los comportamientos del consumidor y, como consecuencia, el desarrollo impreciso de los incentivos y las promociones que una organización pretende poner en danza para publicitar un producto, con las consecuencia económicas que ellos puede suponer. Muchos analistas consideran que la correlación es el método más efectivo. Al menos es el más rápido y sencillo en comparación con otras formas de análisis más robustas.

En segundo lugar, las historias erróneas tienen lugar cuando la información sólo está disponible de manera parcial, pero se presenta como completa para tomar decisiones. Hay una falsa impresión que considera que, si existen muchos datos, todas las preguntas pueden ser respondidas. Pero la cantidad nada tiene que ver con la completitud. Un activo de datos puede ser ingente pero solo contener una de las informaciones necesarias para explicar un problema, dejando de lado muchas posibilidades.

Datos combinados vs datos puros

Vamos a emplear aquí una analogía. Los productores de comidas y bebidas siempre han conocido la diferencia entre productos combinados y puros. Aunque algunas veces pueda ser beneficiosa, habitualmente la mezcla suele rebajar el valor de un producto puro, de origen, lo que, evidentemente, revierte en un producto más barato. Cuando todo el mundo en una organización mezcla sus datos, así como con otros departamentos, el resultado final es una reducción del conocimiento, en lugar de un aumento. Nadie puede verificar los orígenes y la valía de estas mezclas. Los estadistas que habitualmente combinan diversos activos de datos para su análisis saben que han de respetar una estricta documentación de todos los pasos que toman para garantizar su verificación y reproducción futura.

Este proceso incluye el listado de las fuentes originales; la documentación de la transformación realizada sobre las fuentes originales; el listado de los niveles de agregación; los datos derivados de los datos originales vía computación; y la combinación de los activos de datos. ¿Se imagina tener 10.000 activos de datos como este? Esto supone contar con una librería de datos que ha de estar correctamente catalogada para que resulte útil para otras personas. Los usuarios que quieran usar y después analizar esos activos han de sentirse familiarizados con toda la historia, con objeto de saber interpretar correctamente esos datos. En otras palabras, el coste de mantener y usar esos activos para garantizar un método correcto de manipulación aumenta de manera drástica.

Como ya he explicado anteriormente, la mayoría de los inconvenientes relacionados con el `data discovery´ en modo auto-servicio tienen lugar por el error humano, que proviene tanto de una falsa percepción de la facilidad de uso, como por la falta de conocimiento sobre el alcance y la profundidad de los problemas asociados con el análisis de los datos, la escasez de cualificación o la ausencia de colaboración entre especialistas.

[smartads]

En otras palabras, una aproximación propia e independiente a este tipo de actividades puede generar silos analíticos. Para hacer posible análisis más rápidos, las organizaciones han de conseguir que sus plataformas y herramientas les permitan sortear estos obstáculos a través de herramientas de `self-service data discovery´ gobernadas y colaborativas.