Un Data Warehouse es un almacén electrónico donde, generalmente, una empresa u organización mantiene una gran cantidad de información. Los datos de un data warehouse deben almacenarse de forma segura, fiable, fácil de recuperar y fácil de administrar.
Es un repositorio unificado para todos los datos que recogen los diversos sistemas de una empresa. El repositorio puede ser físico o lógico y hace hincapié en la captura de datos de diversas fuentes, sobre todo, para fines analíticos y de acceso.
Estructuras de un Data Warehouse
La arquitectura de un data warehouse puede ser dividida en 3 estructuras simplificadas: básica, básica con un área de ensayo y básica con área de ensayo y data marts.
- Con una estructura básica: Son sistemas operativos y archivos planos que proporcionan datos en bruto y que se almacenan junto con metadatos. Los usuarios finales pueden acceder a ellos para su análisis, generación de informes y minería.
- Con una estructura básica con área de ensayo: El área de ensayo se puede colocar entre las fuentes de datos y el almacén, ésta proporciona un lugar donde los datos se pueden limpiar antes de entrar en el almacén. Es posible personalizar la arquitectura del almacén para diferentes grupos dentro de la organización.
- Con una estructura básica con área de ensayo y data marts: Son sistemas diseñados para una línea de negocio en particular. Se pueden tener data marts separados para ventas, inventario y compras, por ejemplo, y los usuarios finales pueden acceder a datos de uno o de todos los data marts del departamento.
¿Cuál es la diferencia entre Data Lakes y Data Warehouse?
Los data lakes han surgido en el paisaje de Data Management en los últimos años, sin embargo, data lake no es necesariamente un reemplazo del data warehouse. Mas bien, complementan los esfuerzos existentes y dan soporte al descubrimiento de nuevas preguntas. Una vez que se descubren esas preguntas se optimizan las respuestas. Y optimizar puede significar moverse fuera del data lake para ir a un data warehouse.
Estas son algunas diferencias clave entre data lake y data warehouse:
- Datos: Un data warehouse sólo almacena datos que han sido modelados o estructurados, mientras que un Data Lake no hace excepción de datos. Lo almacena todo, estructurado, semiestructurado y no estructurado.
- Procesamiento: Antes de que una empresa pueda cargar datos en un data warehouse, primero debe darles forma y estructura. Con un data lake, sólo se cargan los datos sin procesar, tal y como están, y cuando esté listo para usar los datos, es cuando se le da forma y estructura.
- Agilidad: Un data lake carece de la estructura de un data warehouse, lo que da a los desarrolladores y a los científicos de datos la capacidad de configurar y reconfigurar fácilmente y en tiempo real sus modelos, consultas y aplicaciones.
- Seguridad: La tecnología del Data warehouse existe desde hace décadas, mientras que la tecnología del Data Lake es relativamente nueva. Por lo tanto, la capacidad de asegurar datos en un data warehouse es mucho más madura que asegurar datos en un data lake.
YOPTER BIG DATA MADE EASY