Entendiendo Unity Catalog: la capa de gobernanza dentro de Databricks
- 15 may
- 2 Min. de lectura
Introducción
La arquitectura de Databricks sigue trayendo muchísimos conceptos interesantes. Y, después de revisar:
☁️ Infraestructura Cloud
⚡ Runtime (Apache Spark + Delta Lake)
Hoy toca hablar de otra de las capas más importantes dentro de la arquitectura moderna de Databricks:
👉 Unity Catalog.
Y honestamente… este fue otro concepto que entendí mal al inicio. Durante mucho tiempo pensé que Unity Catalog era “el almacenamiento de Databricks”. Pero no.
Entonces… ¿qué es realmente Unity Catalog?
Unity Catalog es:
👉 La capa de gobernanza de datos dentro de Databricks.
¿Qué significa gobernanza?
Cuando hablamos de gobernanza, hablamos principalmente de:
🔐 Control de acceso
👥 Gestión de permisos
📝 Auditoría
📂 Administración centralizada de datos y assets
En otras palabras:
Quién puede acceder
A qué recursos puede acceder
Qué acciones puede realizar
Cómo esos accesos quedan registrados
La comparación que me ayudó a entenderlo
Cuando finalmente entendí el propósito de Unity Catalog, automáticamente me recordó muchísimo a:
👉 IAM en AWS.
Solo que en este caso, aplicado al ecosistema de datos y objetos dentro de Databricks.
El papel inicial de DBFS
Muchos usuarios comenzamos utilizando:
👉 DBFS (Databricks File System)
DBFS permitía trabajar fácilmente con rutas conectadas a:
☁️ Amazon S3
☁️ ADLS
☁️ Google Cloud Storage
Sin embargo, el verdadero problema no era el acceso al almacenamiento.
👉 Era la gobernanza y el control granular.
Cómo Unity Catalog cambió la arquitectura moderna de Databricks
Unity Catalog introdujo una estructura jerárquica mucho más organizada:

Gracias a esto, Databricks ahora puede ofrecer:
✅ Permisos granulares
👥 Control por usuarios y grupos
📝 Auditoría centralizada
🔍 Data Lineage
🗂️ Gestión centralizada de acceso
Lo más importante: Unity Catalog NO almacena los datos
Este fue el punto más importante que finalmente entendí.
👉 Unity Catalog no almacena datos.
Los datos siguen viviendo en:
🌊 Data Lakes
🪵 Delta Lake
☁️ S3 / ADLS / GCS
Lo que hace Unity Catalog es:
👉 Gobernar, controlar y auditar el acceso a esos datos.
Una arquitectura mucho más separada y organizada
Mientras más reviso la arquitectura moderna de Databricks, más sentido tiene esta separación entre:
⚙️ Procesamiento
💾 Almacenamiento
🔐 Gobernanza
Cada capa cumple un rol distinto dentro del ecosistema.
Lo que viene después
Y sí… todavía queda muchísimo por profundizar sobre Unity Catalog 👀🔥
External Locations
Storage Credentials
Managed vs External Tables
Data Lineage
Volumes
Row-Level Security
Pero eso quedará para próximos posts...


Comentarios