💧 ¿Qué es un Data Lake?
- Brayan Neciosup
- 9 jul
- 1 Min. de lectura
Un Data Lake es un repositorio centralizado que almacena cualquier tipo de dato en su formato nativo (crudo), sin necesidad de transformarlo al ingresarlo. Esto incluye datos estructurados, semiestructurados y no estructurados, y se optimiza para escalar desde terabytes hasta petabytes (y más)
Data Warehouse | Data Lake |
Esquema-on-write: datos estructurados | Esquema-on-read: datos crudos |
Alta estructuración y gobernanza | Gran flexibilidad, diversidad de datos |
Optimizados para BI y reporting | Ideales para ML, exploración y análisis futuros |
Ambos son complementarios, pero el Data Lake es el punto de partida que capacita a la organización para atender consultas emergentes, innovación y análisis avanzados. Además, de su evolución nativa
de ambos DataLakeHouse presente en la plataforma de Databricks.
⚙️ Esencial para el Data Engineer
Ingesta masiva de datos crudos desde múltiples fuentes (APIs, logs, IoT, redes sociales, transacciones).
Zonas de almacenamiento: desde la etapa "raw" hasta zonas de procesamiento o “cleaned”, listas para análisis.
Integración con herramientas como Apache Spark, Hadoop, S3, Azure Data Lake, etc. .
Gestión de metadatos, calidad y gobernanza, evitando que el data lake se convierta en un "data swamp".
Comentarios