
Para ser una empresa data-driven, una empresa en el que el (buen) dato es el centro de cualquier decisión, dentro de la gestión del big data, se plantean dos procesos básicos: los procesos ETL y los procesos ELT. Pese a que ambos ofrecen de resultado un dato integrado, gestionado y de calidad, según las necesidades de cada estructura empresarial (mayor o menor agilidad de disposición del dato, mayor o menor capacidad de almacenaje, mantenimiento, etc.), será más adecuado el uso de una metodología u otra.
En este artículo nos centraremos en las herramientas ETL, detallando desde su definición, su importancia, hasta los beneficios que comportan y cómo aplicarlas.
Cómo trabajan las herramientas ETL
ETL viene de las siglas provenientes de los anglicismos “extract, transform y load”, o lo que es lo mismo: “extraer, transformar y cargar”, que hace referencia al orden exacto que sigue este proceso a la hora de desarrollar una estrategia data-driven.
Hablamos de “a la hora de desarrollar una estrategia data-driven” dado que por sus peculiaridades y las herramientas y procesos que implica, el despliegue de la metodología ETL precisa una firme voluntad de querer explotar y extraer conocimiento de valor de los datos en los que se trabaja dentro de una empresa.
Es por ello por lo que el inicio de una estrategia en la que se aplican procesos ETL, suele aplicarse en la actualidad a empresas que acumulan datos desde hace años, almacenados desde diferentes fuentes y con diversos formatos. Se activa por tanto cuando pretendemos organizarlos, limpiarlos y consolidarlos en un único lugar desde el cual hacerlos accesibles y comprensibles: el data warehouse.
Todo ese viaje desde los diferentes espacios en los que acumulamos datos, hasta que se organizan en un almacén de datos, es cuando se extraen, transforman y cargan, o lo que es lo mismo, cuando trabajan las herramientas ETL. Por tanto, éstas lo que nos permiten es consolidar los distintos datos que poseemos, independientemente de su tamaño, tipología o el tiempo que lleven entre nosotros, en un espacio, el data warehouse, donde se orientan a la analítica.
Para conocer en mayor profundidad, cómo se trabaja en cada una de las fases de los procesos ETL, en qué se diferencian de los procesos ELT y cuándo conviene aplicar uno u otro, recomendamos la lectura del artículo: Procesos ETL y ELT: en qué se diferencian y cuál es el más indicado para mi estrategia de datos.
Qué beneficios aportan las herramientas ETL
Uno de los principales es el que acabamos de desvelar: la analítica. De nada sirve acumular ingentes cantidades de datos si no sabemos qué información valiosa extraer de ellos. Así, las herramientas ETL nos facultan a ser capaces de ordenar y acceder a datos que con anterioridad estaban ocultos o desorganizados y no solo eso: según qué herramientas ETL, también seremos capaces de obtener los insights necesarios a través de cómo y dónde se presentan estos datos.
De esta forma, otro de los grandes beneficios que aportan las aplicaciones ETL es el de coordinar e integrar diferentes herramientas; actualizarlas sin que se pierda información en el proceso, estabilizar el ecosistema data incorporando nuevas herramientas a las preexistentes… Es decir, conseguir que toda la tecnología al servicio de los datos en nuestra empresa, trabajen para un mismo fin: la calidad de la información.
Es recomendable que, a la hora de aplicar cualquier proceso en beneficio de una cultura data-driven en la empresa, no se aborde de forma unilateral (pensando en una única solución o herramienta para todo el ecosistema data), sino que se combinen diferentes metodologías para según la finalidad principal a la que queramos destinar la información extraída de nuestros datos. Así, un proceso ETL puede optimizarse si se le añaden tecnologías de business intelligence, data quality, etc |
Adicionalmente, también podemos hablar de una ventaja muy positiva de las herramientas ETL la referente a la seguridad de los datos, tanto a la hora de protegerlos de ciberataques, como al cumplimiento de las leyes referentes a protección de datos (RGPD, LOPD, etc.). Esto se debe a que al encontrarse los datos perfectamente clasificados y estructurados en almacenes, se pueden proteger por capas de manera que solo sean accesibles a quienes realmente deben trabajar con ellos. De esta forma, se comparten únicamente aquellos datos que están en disposición de ello, y solo a quienes tienen autorización para ello.
Por último, dentro de las ventajas más notables que ofrece una herramienta ETL, está la de mejorar la gestión del tiempo, como consecuencia de contar con la información necesaria para el crecimiento de la empresa, mucho más al alcance, y también como consecuencia de realizar tareas de limpieza, depurado y corrección de datos que requerirían horas y horas de dedicación por parte de especialistas como data scientist, programadores o personal de IT, que podrán disponer de este tiempo ahorrado para otras tareas más productivas y beneficiosas.
Preguntas y respuestas sobre herramientas ETL
¿Podemos aplicar herramientas ETL en cualquier momento?
Indicábamos al comienzo del artículo que los procesos ETL son apropiados para empresas que inician una estrategia data-driven y cuentan con diferentes fuentes de datos, formatos y almacenados desde hace el suficiente tiempo como para no poder conocer de primeras su procedencia o el motivo por el cual se almacena. Un estado que dentro de la transformación digital denominamos como “data chaos”.
¿Quiere decir que los procesos ETL son únicamente recomendados cuando no tenemos organización ni control sobre nuestros datos? Quiere decir que da solución a este estado de incertidumbre sobre las fuentes de información que se manejan desde la empresa, estemos en un estado avanzado de la problemática (años y años recopilando datos sin un aparente “orden y concierto”) o inicial (comenzamos a trabajar con big data y/o conectamos diversas fuentes de captación, recopilación y almacenaje de datos como cámaras de visión artificial. CMS, campañas de marketing, etc.).
Así, tal como hemos ido insistiendo, las herramientas ETL son las recomendadas siempre que queramos desplegar una estrategia data-driven, que a su vez es lo más recomendable siempre que se trabaja con big data.
¿Cuándo es recomendable aplicar herramientas ETL?
O lo que es lo mismo, ¿cuándo desplegar esa estrategia data-driven a la que hemos hecho referencia? La respuesta más simple es la de el momento en el que queremos tener control absoluto sobre la información que extraemos de nuestros datos y la presencia de big data nos lo impide de una forma que no sea correctamente automatizada. Pero esta “simpleza” tiene trampa, ya que una estrategia data-driven es mucho más compleja que aplicar herramientas.
Así, es recomendable acudir a herramientas que nos faciliten procesos ETL en circunstancias como:
- Siempre que se necesite o recomiende cargar datos desde una o múltiples fuentes a un mismo lugar: por ejemplo, en el caso de migraciones a cloud o a data warehouses.
- Cuando se requiera una limpieza o reformateo de datos: campos incompletos que hacen inservible la información, caducos, de los que se desconoce su procedencia o utilidad…
- Se quiera tener bajo control la ingesta de datos desde diferentes herramientas que operan bajo un mismo entorno, como cámaras de videovigilancia, bases de datos de clientes, etc.
- Queramos analizar de forma conjunta o separada cada fuente de datos y la información que contienen, como cuando fusionamos la información obtenida de una campaña de marketing con la existente en nuestro ERP.
- Pretendamos coordinar nuevas herramientas con las preexistentes y que trabajen de forma conjunta a la hora de obtener insights, que es el caso de aplicar inteligencia artificial.
- Acudamos a campañas de marketing y queramos asegurarnos desde el cumplimiento de la normativa sobre protección de datos, hasta la máxima satisfacción de los destinatarios, evitando errores en envíos de mails o un uso inapropiado de la información recopilada.
¿En qué se diferencian de las herramientas ELT?
Para profundizar en este aspecto, recomendamos el artículo que explica las diferencias entre procesos ELT y ETL. No obstante, a modo resumen, cabe indicar que la principal diferencia que produce extraer, transformar y cargar en vez de extraer, cargar y transformar radica tanto en la velocidad que demandamos a cada proceso, como la infraestructura necesaria para ello.
Ambos procesos bien llevados a cabo, ETL y ELT, ofrecen el mismo resultado: un dato ordenado, gobernado y de calidad, solo que según las características de nuestro ecosistema de datos concreto, nos será más práctico un proceso u otro.
Así, por ejemplo, si trabajamos principalmente on premise y con sistemas de datos estructurados locales, y no concebimos migrar a cloud (algo por otra parte, muy recomendado en cualquier proceso data-driven), nos puede interesar más un proceso ETL, mientras que los procesos ELT están perfectamente diseñados para una escalabilidad más sencilla a cloud.
Es por ello por lo que, antes de decidirnos por un proceso ELT o un proceso ETL, conviene contar con asesoría especializada en data que nos audite nuestro entorno para, de esta forma, contar con la metodología y las herramientas adecuadas, sin caer en el sobredimensionado (contar con una suite donde se cubran procesos que no necesitamos o desconocemos) ni en un uso insuficiente (contar con una suite que necesite posteriores nuevas integraciones para dar servicio a nuestras necesidades del día a día).
¿Qué herramientas ETL son las más recomendables?
Con esta cuestión sucede exactamente lo mismo que a la hora de elegir un proceso ETL o un proceso ELT: dentro de la lógica de que hay herramientas que por especialidad, por recorrido en el mercado, por eficacia y/o por el respaldo con el que cuentan, resulten más puntera que otras, a priori no podemos afirmar que X producto sea mejor que otro.
X producto será mejor para X entornos. Es decir, si vamos a iniciar un proceso de transformación de datos, y ya trabajamos con infraestructura de Amazon, a priori (insistimos: toda solución depende de cada ecosistema, de cada forma de trabajar los datos, de cada tamaño de la empresa y sus necesidades, etc.) nos puede interesar más AWS Data Pipeline que cualquier otra. ¿Por qué sea mejor que otras herramientas ETL? Más allá del respaldo de una marca líder, la principal razón sería que la transición, escalabilidad y conexión entre otras herramientas será de menor intensidad entre marcas afines que entre diferentes proveedores.
Por otra parte, nuestra plantilla verá más reconocible y, con ello, con mayor usabilidad, una herramienta del entorno en el que suele trabajar que no otra distinta. De esta forma reducimos la curva de aprendizaje.
En resumen a la hora de responder a esta cuestión (extrapolable también a la aplicación de procesos ELT), en elternativa nos gusta trabajar con diferentes soluciones, sin predeterminar el uso de una herramienta sobre otra antes de estudiar cada caso. De esta forma, ofrecemos un catálogo de alianzas que va desde las mejores valoradas como Informatica PowerCenter (marcada como líder año tras año en el Cuadrante Mágico de Gartner dentro de la gestión de metadatos), hasta aquellas soluciones que durante nuestros años de experiencia en el mercado, nos han funcionado con notable eficacia y en diferentes entorno (caso de Talend, de la que somos el único partner Platinum en España y LATAM).
