top of page

👉 Unity Catalog : El nuevo modelo de almacenamiento y gobernanza en Databricks Free Edition - 2025

  • Foto del escritor: Brayan Neciosup
    Brayan Neciosup
  • hace 1 día
  • 2 Min. de lectura

Con la transición de Community Edition a la Free Edition (2025), Databricks ha implementado una evolución importante: Unity Catalog, esta nueva estructura de almacenamiento reemplaza al tradicional DBFS, y trae consigo una gestión más ordenada, segura y escalable para proyectos basados en la arquitectura Data Lakehouse.

¿Por qué Unity Catalog?

Anteriormente, trabajábamos con archivos en DBFS, pero con la restricción actual en Free Edition, Unity Catalog se ha convertido en el nuevo estándar para organizar y almacenar archivos, permitiendo:

✅ Lectura/escritura desde volúmenes gobernados.

✅ Organización jerárquica de proyectos.

✅ Compatibilidad nativa con Delta Lake.

✅ Conversión automática de archivos a tablas optimizadas.

🔄 Estructura jerárquica en Unity Catalog:

Nivel

Elemento

Función

1️⃣

Catálogo

Contenedor principal de esquemas y volúmenes. Ideal para segmentar por ambientes (main, dev) o proyectos.

2️⃣

Esquema

Agrupa tablas, vistas, funciones y volúmenes. Se asemeja a una base de datos dentro de un catálogo.

3️⃣

Volumen

Espacio donde se almacenan archivos no tabulares como CSV, JSON o Parquet. Actúan como carpetas con datos crudos.

📌 Claves del almacenamiento en Unity Catalog:

  • Todo archivo que se sube desde la UI Catalog en Databricks se convierte automáticamente en una tabla Delta.

  • Se pueden extraer subconjuntos de datos y almacenarlos como .parquet, si no se requiere versionado o ACID.

  • Ideal para combinar archivos .delta (para operaciones transaccionales) con .parquet (para datos estáticos).

  • Unity Catalog conecta de forma directa con buckets de proveedores como AWS S3, GCP, Azure, permitiendo centralizar fuentes de datos.

  • Introduce una gobernanza de datos escalable y administrada por niveles jerárquicos.

✔️ Conclusión:

Este cambio no solo mejora la forma en que almacenamos y accedemos a los archivos, sino que redefine la gobernanza de datos en proyectos complejos. Con Unity Catalog, Databricks se consolida como una plataforma integral basada en la filosofía Lakehouse, lista para escalar en entornos multiusuario y multiproyecto.

En la siguiente publicación cerraré esta serie comparando el modo de acceso a archivos entre Community Edition vs Free Edition, para luego avanzar con todo en Spark SQL 📊🔜.

Comments


data_analisis.png

Tomar decisiones sin datos es como navegar en la oscuridad...

En la era digital, los datos son el activo más valioso de las empresas; su correcta recopilación, análisis y aplicación estratégica son clave para impulsar la toma de decisiones informada, la innovación y el éxito empresarial

No dudes en ponerte en contacto para colaborar o simplemente intercambiar ideas! Juntos, podemos seguir descifrando el lenguaje de los datos y construir un futuro más informado.

© 2035 Creado por Mentes Creativas con Wix.com

bottom of page