Un Data Warehouse (#DWH) es una tecnología que alcanzó su mayor auge en la década de 1980, cuando las bases de datos eran principalmente relacionales. Se define como una base de datos optimizada para la consulta y el análisis de datos. Su propósito es proporcionar coherencia y unidad a los datos almacenados, logrando esto mediante la integración de datos provenientes de múltiples fuentes, como sistemas transaccionales, otras bases de datos, archivos y fuentes externas.
La arquitectura tradicional de un #DWH por lo general se compone de cuatro componentes:
- Fuentes de Datos: Incluyen archivos planos, bases de datos operativas y fuentes de datos externas.
- Proceso de Extracción, Transformación y Carga (#ETL): este proceso prepara los datos antes de almacenarlos en el DWH. La extracción implica recolectar datos de diversas fuentes, la transformación busca limpiar, normalizar y, en caso necesario, enriquecer estos datos, y la carga es el proceso de almacenar los datos transformados en el DWH.
- Almacén de Datos: Es la base de datos (#DB) centralizada donde se almacenan los datos integrados. Este almacén está diseñado para responder rápidamente a las consultas y hacer eficiente el análisis de los datos.
- Herramientas de Acceso y Análisis: Incluyen herramienta de Business Intelligence (#BI) que presentan tableros gráficos de información y reportes. Estas herramientas permiten a los usuarios finales acceder y analizar los datos.
- Mejora en la toma de decisiones gracias a la implementación de herramientas de BI.
- Datos limpios y estructurados, unificados de diversas fuentes.
- Schemas predefinidos que facilitan el análisis.
- Rendimiento optimizado para análisis y consulta de grandes volúmenes de datos.
- Acceso histórico de la data que permiten el análisis de tendencias y patrones a lo largo del tiempo
- Sin soporte para datos No Estructurados o Semiestructurados ya que representa un reto guardar audio, video, archivos, imágenes, etc.
- Los schemas no son flexibles, lo que limita la adaptabilidad a nuevos requisitos.
- El procesamiento de datos puede ser largo.
- La calidad de los datos depende de la efectividad de lo diseñado y almacena.
- Puede ser costoso y complejo, se puede requerir inversiones significativas en tecnología, infraestructura y personal especializado.
- Se presentan muchas veces problemas con aumentos de escalabilidad ya sean verticales u horizontales.
Al considerar datos de múltiples fuentes y estructurar esta información, las organizaciones pueden aprovechar al máximo los datos para mejorar la toma de decisiones y obtener insights valiosos que impulsen el rendimiento y la eficiencia empresarial.