En el mundo de hoy los datos son cada vez más relevantes. Y es que se generan datos con mucha frecuencia. De hecho, en los últimos dos años se han creado tantos datos como todos los que la historia de la humanidad ha generado. Una realidad que según los estudios más recientes va a más. En este panorama, las organizaciones necesitan dotarse de herramientas que les permitan analizar los datos (Data Quality) para poder tomar las mejores decisiones para la buena marcha del negocio. Ya que, en un mundo plagado de datos, lo importante no es tener muchos datos, sino contar con el mejor análisis para sacarle el máximo partido.
Además, en un contexto de aumento de datos como el actual, los que emergerán más serán los de más calidad. En este sentido, la búsqueda de la calidad de los datos se presenta como algo imprescindible en un panorama saturado de datos como el que tenemos hoy.
¿Qué es Data Quality?
La calidad de los datos o “Data Quality”, en inglés, hace referencia a una percepción o una evaluación de la idoneidad de los datos para cumplir su propósito en un contexto dado. La calidad de los datos está determinada por factores como la exactitud, la integridad, la confiabilidad, la relevancia y cómo de actualizados están.
A medida que los datos se han vinculado estrechamente con las operaciones de las organizaciones, el énfasis en la calidad de los datos ha ganado una mayor atención.
La prueba del interés creciente de las empresas en la calidad de los datos se encuentra en un reciente estudio de la consultora tecnológica Gartner. Según el informe “Market Share: Data Quality Tools, Worldwide, 2017”, el mercado de las herramientas de data quality alcanzó en 2017 la cifra de 1,61 mil millones de dólares, cifra que supone un aumento del 11,6% respecto al 2016.
¿Por qué Data Quality es importante?
Los datos de baja calidad a menudo se consideran una fuente de informes inexactos y de estrategias mal concebidas en una variedad de empresas y algunos han intentado cuantificar el daño causado. El daño económico provocado por problemas en la calidad de los datos puede ir desde gastos adicionales agregados cuando los paquetes se envían a direcciones incorrectas hasta multas de cumplimiento reglamentario (compliance) por informes financieros inadecuados.
Según datos de IBM, se estima que el coste anual de los problemas de calidad de los datos en los Estados Unidos se situó en 2016 alrededor de los 3,1 millones de dólares. La falta de confianza de los gerentes de negocios en la calidad de los datos se cita comúnmente entre los principales impedimentos para la toma de decisiones.
La mala calidad de los datos era frecuente en los primeros años de la informática, cuando la mayoría de los datos se introducían a mano. Con el avance de los sistemas automatizados, la calidad de los datos ha adquirido mayor importancia. Y es que en la calidad de los datos es donde se nota la diferencia entre las empresas que cuentan con una buena solución y las que no.
¿Cómo las empresas evalúan Data Quality?
La calidad de los datos se evalúa a través del Marco de Evaluación de la calidad de los datos (DQAF) creado por el Fondo Monetario Internacional (FMI). Un método común para estimar la calidad de los datos.
El DQAF proporciona pautas para medir los datos, en la que hoy en día tienen mucha importancia cuando se reciben los datos, si en tiempo real o en diferido.
Dentro de la organización, un equipo pluridisciplinar se encarga de evaluar los datos y garantizar la calidad de los mismos. Un equipo de profesionales formado por el Data Steward, el Data Engineer, el Business Analyst, el IT Developer, el Business User y el Data Scientist.
Este equipo está liderado por el Data Steward o “administrador de datos”, que se responsabiliza de utilizar los procesos de gobierno de datos de una organización para garantizar que los datos cumplen con las políticas y las reglamentaciones pertinentes, tanto en el contenido como en los metadatos.
¿Cómo gestionan Data Quality las empresas?
El experto en Data Quality, David Loshin, establece que la gestión de la calidad de los datos empieza con la identificación y la medición del efecto de los resultados empresariales. Se definen las reglas, se fijan los objetivos de rendimiento y se implementan los métodos de mejora de la calidad, así como la limpieza específica de datos y se implementan procesos de mejora.
Este proceso se conoce con el nombre de Data Preparation. Se refiere a la recopilación, limpieza y consolidación de datos en un archivo o tabla de datos, principalmente para su uso en el análisis de los mismos.
Los resultados son después monitorizados como parte de la medición continua del uso de los datos en la organización. Este ciclo de la gestión de la calidad de los datos tiene como objetivo garantizar una mejora constante de la calidad de los datos en una empresa.
Hoy en día, los equipos que gestionan la calidad de los datos cuentan con herramientas imprescindibles para este propósito como Talend. Soluciones que aseguran que la empresa tenga información de calidad.