👉 Unity Catalog : El nuevo modelo de almacenamiento y gobernanza en Databricks Free Edition - 2025
- Brayan Neciosup
- hace 1 día
- 2 Min. de lectura
Con la transición de Community Edition a la Free Edition (2025), Databricks ha implementado una evolución importante: Unity Catalog, esta nueva estructura de almacenamiento reemplaza al tradicional DBFS, y trae consigo una gestión más ordenada, segura y escalable para proyectos basados en la arquitectura Data Lakehouse.
¿Por qué Unity Catalog?
Anteriormente, trabajábamos con archivos en DBFS, pero con la restricción actual en Free Edition, Unity Catalog se ha convertido en el nuevo estándar para organizar y almacenar archivos, permitiendo:
✅ Lectura/escritura desde volúmenes gobernados.
✅ Organización jerárquica de proyectos.
✅ Compatibilidad nativa con Delta Lake.
✅ Conversión automática de archivos a tablas optimizadas.
🔄 Estructura jerárquica en Unity Catalog:
Nivel | Elemento | Función |
1️⃣ | Catálogo | Contenedor principal de esquemas y volúmenes. Ideal para segmentar por ambientes (main, dev) o proyectos. |
2️⃣ | Esquema | Agrupa tablas, vistas, funciones y volúmenes. Se asemeja a una base de datos dentro de un catálogo. |
3️⃣ | Volumen | Espacio donde se almacenan archivos no tabulares como CSV, JSON o Parquet. Actúan como carpetas con datos crudos. |
📌 Claves del almacenamiento en Unity Catalog:
Todo archivo que se sube desde la UI Catalog en Databricks se convierte automáticamente en una tabla Delta.
Se pueden extraer subconjuntos de datos y almacenarlos como .parquet, si no se requiere versionado o ACID.
Ideal para combinar archivos .delta (para operaciones transaccionales) con .parquet (para datos estáticos).
Unity Catalog conecta de forma directa con buckets de proveedores como AWS S3, GCP, Azure, permitiendo centralizar fuentes de datos.
Introduce una gobernanza de datos escalable y administrada por niveles jerárquicos.
✔️ Conclusión:
Este cambio no solo mejora la forma en que almacenamos y accedemos a los archivos, sino que redefine la gobernanza de datos en proyectos complejos. Con Unity Catalog, Databricks se consolida como una plataforma integral basada en la filosofía Lakehouse, lista para escalar en entornos multiusuario y multiproyecto.
En la siguiente publicación cerraré esta serie comparando el modo de acceso a archivos entre Community Edition vs Free Edition, para luego avanzar con todo en Spark SQL 📊🔜.
Comments