Lago, almacén y centro de datos

Consideremos tres tipos de almacenamiento de datos en la nube, sus diferencias y aplicaciones.







Lago de datos



Un lago de datos es un gran repositorio de datos sin procesar, tanto desestructurados como semiestructurados. Los datos se recopilan de varias fuentes y simplemente se almacenan. No se modifican para un propósito específico y no se convierten a ningún formato. El análisis de estos datos requiere una larga preparación, limpieza y formateo para que sean homogéneos. Los lagos de datos son excelentes recursos para los gobiernos de las ciudades y otras organizaciones que almacenan información relacionada con las interrupciones de la infraestructura, el tráfico, la delincuencia o la demografía. Los datos se pueden usar más tarde para realizar cambios presupuestarios o revisar los recursos asignados a los servicios públicos o de emergencia.



Almacén de datos



Un almacén de datos son datos agregados de diferentes fuentes en un único repositorio central que los unifica en términos de calidad y formato. Los científicos de datos pueden aprovechar los datos del almacenamiento en áreas como la minería de datos , la inteligencia artificial (IA) , el aprendizaje automáticoy, por supuesto, en inteligencia empresarial. Los almacenes de datos se pueden usar en las grandes ciudades para recopilar información sobre transacciones electrónicas de varios departamentos, incluidos datos sobre multas por exceso de velocidad, impuestos especiales y más. Los desarrolladores también pueden usar los almacenes de datos para recopilar terabytes de datos generados por sensores automotrices. Esto les ayudará a tomar las decisiones correctas al desarrollar tecnologías para la conducción autónoma.



Escaparate de datos



Un data mart es un almacén de datos diseñado para un círculo específico de usuarios en una empresa o su división. El departamento de marketing de una empresa de fabricación puede utilizar el data mart para identificar las audiencias objetivo al desarrollar planes de marketing. También puede ser utilizado por el departamento de fabricación para analizar el rendimiento y las tasas de error para crear condiciones para la mejora continua del proceso. Los conjuntos de datos en un data mart se utilizan a menudo en tiempo real para análisis y resultados procesables.



Lake, Warehouse y Data Mart: diferencias clave



Todos los repositorios mencionados se utilizan para almacenar datos, pero existen diferencias significativas entre ellos. Por ejemplo, un almacén de datos y un lago de datos son grandes repositorios, pero un lago suele ser más rentable en términos de costos de implementación y mantenimiento porque almacena principalmente datos no estructurados. 



La arquitectura del lago de datos ha evolucionado en los últimos años y ahora es capaz de admitir más datos y computación en la nube. Grandes cantidades de datos fluyen de diferentes fuentes a un repositorio centralizado. 



Un almacén de datos se puede organizar de tres formas:



  1. Como servicio gestionado ofrecido por proveedores en la nube.
  2. , .
  3. , , .


Los datos en un almacén son más fáciles de usar para diferentes propósitos que los datos en un lago. Esto se debe a que los datos del almacén están estructurados y son más fáciles de recuperar y analizar.



Un data mart contiene una pequeña cantidad de datos en comparación con un almacén y un lago, que está categorizado para su uso por un grupo específico de personas o una división de una empresa. Una despensa de datos puede estar representada por varios esquemas (estrellas, copos de nieve o bóvedas) que están definidos por una estructura de datos lógica. El formato de la bóveda de datos es el más flexible, versátil y escalable.



Hay tres tipos de data marts:



  1. Una despensa de datos dependiente que consta de partes de un almacén de datos empresarial. Contiene conjuntos de datos primarios para el almacén.
  2. , , .
  3. , . .


La elección del tipo y estructura del repositorio de datos depende en gran medida de las necesidades y requisitos de la empresa. Si eso es lo que le importa, aproveche el almacenamiento en la nube híbrida , que es flexible y escalable, así como un enfoque más completo e informado para la resolución de problemas y la toma de decisiones.



IBM ofrece una variedad de soluciones de minería de datos y almacenamiento en la nube. Tanmay Sinha Director del programa, Db2 Portfolio Blog Link


























All Articles