Enfocarnos en los datos es un imperativo empresarial, pero hay grandes retos a superar para obtener el máximo valor de los datosa través de la gobernanza.
El volumen de datos que las empresas necesitan gestionar se duplica cada dos años, lo que genera una proliferación de datos y, al mismo tiempo, hay una mayor variedad de datos que procesar y analizar, como los nuevos datos en flujo procedentes del IoT, sensores, weblogs, flujos de clics, datos crowdsourced de aplicaciones digitales y redes sociales, etc. Además, se multiplican los nuevos roles basados en datos dentro de la organización.
Hoy en día, incluso las personas que desempeñan funciones no técnicas se han convertido en expertos en datos, aspirando a ser algo más que consumidores pasivos de datos y deseando convertir los datos en información de forma autónoma: TI en la sombra, datos de terceros, Internet de las cosas, aplicaciones, etc. Además, esos datos se necesitan más rápido que nunca, ahora que las empresas necesitan ingerir y analizar datos en tiempo real, en lugar de reaccionar a datos de hace un día o una semana.
De hecho, ahora estamos viendo un CAGR del 35% para el análisis de flujo. Y con tantas personas en tantas partes de la empresa con una variedad de habilidades de análisis de datos que quieren acceder a los datos para la inteligencia empresarial, se espera que TI proporcione acceso a todo. Sin embargo, el presupuesto y los recursos de TI son relativamente planos. Hay una brecha creciente entre las expectativas de negocio y lo que TI puede ofrecer.
El mayor problema es que el enfoque tradicional de la gobernanza de datos no puede adaptarse a la era digital: muy pocas personas acceden a muy pocos datos
En el pasado, establecimos enfoques altamente centralizados para crear centros de datos. Algunos ejemplos son la gestión de datos maestros, el CRM, la creación de una vista de 360º del cliente o los almacenes de datos empresariales.
El enfoque altamente centralizado se basa en un pequeño equipo de profesionales de datos muy experimentados, armados con metodologías bien definidas y mejores prácticas conocidas. Cuando se aplica a un almacén de datos empresariales, por ejemplo, se podría empezar por definir un modelo de datos central donde se puedan recopilar y conciliar los datos que se han marcado como relevantes para las perspectivas.
A continuación, los datos se remodelan en marts de datos para que puedan encajar en un dominio o problema empresarial.
Por último, estos datos se remodelan de nuevo utilizando una herramienta de inteligencia empresarial que proporciona una capa semántica como un «catálogo de datos», destinada a ser empaquetada en informes predefinidos. Sólo entonces se pueden consumir los datos para su análisis.
Por ejemplo, los contenidos web. Antes de entrar en el siglo XXI, buscábamos el conocimiento en una enciclopedia como la Enciclopedia Británica o Microsoft Encarta. Pero el problema al que se enfrentó este modelo cuando se generalizó la web es que estas enciclopedias no pudieron hacer frente a la demanda del consumidor de datos. Ahora la gente quiere artículos completos y actualizados sobre todos y cada uno de los temas imaginables, en un solo clic, en sus idiomas nativos
Tu organización se enfrenta al mismo problema con los datos. Puede que tengas los mejores expertos en tu organización central, pero no tienes suficientes recursos para llevar todos estos datos de forma precisa a todos los que los necesitan tan rápido como los quieren, ni puedes abordar las crecientes necesidades de los usuarios de la empresa de nuevos y diferentes tipos de dato.
La lucha por la gobernanza de datos en la era big data
Mientras que el enfoque anterior consistía en empezar por el modelado de datos y la gobernanza de los mismos y, a continuación, profundizaremos en los datos reales mediante un enfoque descendente, los lagos de datos adoptan exactamente la estrategia contraria. Todo empieza con los datos en bruto.
Los datos en bruto se pueden ingerir con unos costes de implementación iniciales mínimos, generalmente en sistemas de archivos básicos y de bajo coste. No hay que preocuparse por la estructura de los archivos cuando se introducen los datos. De hecho, es posible que no se sepa qué contienen exactamente.
Más adelante en el proceso, se puede crear una estructura sobre estos datos (conocido como «esquema en lectura»), pero también controles de calidad de los datos, reglas de seguridad, políticas, controles, etc. Este modelo más ágil tiene múltiples ventajas sobre el modelo centralizado. Se adapta a todas las fuentes de datos y casos de uso.
Por ello, los lagos de datos suelen comenzar con un enfoque de laboratorio de datos, dirigido a unos pocos científicos de datos expertos en datos. Utilizando la infraestructura de la nube y el Big Data, se puede acelerar drásticamente el proceso de ingestión de datos con datos en bruto. Utilizando el esquema en lectura, los científicos de datos pueden convertir la información en datos inteligentes.
El siguiente paso es compartir estos datos con una audiencia más amplia. Muchas organizaciones crean una nueva capa de datos para la analítica, dirigida a la comunidad de analistas de negocio. Al dirigirse a una audiencia más amplia con diferentes roles, se da cuenta de que necesita establecer una gobernanza más fuerte y un control de calidad de los datos.
Establece una gobernanza colaborativa en la era digital
Pero cada vez hay más fuentes de datos entrantes, introducidas por más y más personas de diferentes partes de la organización. Resulta útil establecer un enfoque más colaborativo de la gobernanza desde el principio, de modo que los usuarios más capacitados de su empresa puedan convertirse en proveedores y conservadores de contenidos. Trabajar con los datos como un equipo desde el principio es esencial para este enfoque. De lo contrario puedes verte abrumado por la cantidad de trabajo necesario para validar que los datos son fiables.
Las empresas pueden implantar un sistema de confianza que se amplíe aprovechando las herramientas de autoservicio inteligentes y basadas en el flujo de trabajo con controles de calidad de datos integrados. Algunos procesos fuertemente regulados, como la agregación de datos de riesgo en los servicios financieros, y algunos datos específicos, como la información de las tarjetas de crédito de los consumidores, requieren una atención muy específica, y en ese caso no se aplica el enfoque ascendente. Definir qué modelo de gobernanza de datos se aplica es una responsabilidad típica del equipo de gobernanza de datos.
Obtener datos inteligentes a través de una única fuente de datos confiables
La clave está en encontrar herramientas que permitan organizar los datos a escala para que sean accesibles para todos y, al mismo tiempo, aumentar el control. Este tipo de herramientas permite:
- Rastrear automáticamente todos los datos, ya sea en la nube o en las instalaciones utilizando el reconocimiento de patrones y la semántica inteligente para hacer que tus datos sean más significativos con el muestreo automático, creación de perfiles, categorización, descubrimiento de relaciones y lineaje de datos.
- Hace de la gobernanza de datos un trabajo de equipo con un único punto de control seguro en el que se puede colaborar para mejorar la accesibilidad, la precisión y la relevancia empresarial de los datos
- Facilita el acceso a encontrar la información directa para compartirla más rápido
Las empresas Data–Driven, son empresas basadas en la información, empresas donde los datos son el epicentro de los procesos y toma de decisiones. Estimamos que tan solo el 0,5% de la información disponible en una organización está siendo procesada y analizada. Las empresas deben tomar conciencia del poder de los datos, de su valor, y entender la importancia de discernir cuáles son los que aportan valor a nuestro negocio frente a cuáles no.
Uno de los grandes retos es que hasta un 23% de la información disponible que permanece oculta son de valor para el negocio.
El verdadero valor de los datos reside de la capacidad para interpretar esa información, no significa analizar todas las fuentes que se tengan alrededor, sino saber con qué fuentes de datos se cuenta y centrar los esfuerzos en aquellas realmente relevantes. Un ejercicio que requiere de una visión amplia, que permita a las empresas disponer de soluciones tecnológicas apropiadas para lograr los objetivos.
También te puede interesar:
¿Qué es el data quality y por qué es importante?
El procesamiento de datos en timepo real beneficia a las empresas
Los retos de convertirse en una compañía Data-Driven