top of page

Entendiendo Unity Catalog: la capa de gobernanza dentro de Databricks

  • 15 may
  • 2 Min. de lectura

Introducción

La arquitectura de Databricks sigue trayendo muchísimos conceptos interesantes. Y, después de revisar:

  • ☁️ Infraestructura Cloud

  • ⚡ Runtime (Apache Spark + Delta Lake)

Hoy toca hablar de otra de las capas más importantes dentro de la arquitectura moderna de Databricks:

👉 Unity Catalog.

Y honestamente… este fue otro concepto que entendí mal al inicio. Durante mucho tiempo pensé que Unity Catalog era “el almacenamiento de Databricks”. Pero no.

Entonces… ¿qué es realmente Unity Catalog?

Unity Catalog es:

👉 La capa de gobernanza de datos dentro de Databricks.

¿Qué significa gobernanza?

Cuando hablamos de gobernanza, hablamos principalmente de:

  • 🔐 Control de acceso

  • 👥 Gestión de permisos

  • 📝 Auditoría

  • 📂 Administración centralizada de datos y assets

En otras palabras:

  • Quién puede acceder

  • A qué recursos puede acceder

  • Qué acciones puede realizar

  • Cómo esos accesos quedan registrados

La comparación que me ayudó a entenderlo

Cuando finalmente entendí el propósito de Unity Catalog, automáticamente me recordó muchísimo a:

👉 IAM en AWS.

Solo que en este caso, aplicado al ecosistema de datos y objetos dentro de Databricks.

El papel inicial de DBFS

Muchos usuarios comenzamos utilizando:

👉 DBFS (Databricks File System)

DBFS permitía trabajar fácilmente con rutas conectadas a:

  • ☁️ Amazon S3

  • ☁️ ADLS

  • ☁️ Google Cloud Storage

Sin embargo, el verdadero problema no era el acceso al almacenamiento.

👉 Era la gobernanza y el control granular.

Cómo Unity Catalog cambió la arquitectura moderna de Databricks

Unity Catalog introdujo una estructura jerárquica mucho más organizada:



Gracias a esto, Databricks ahora puede ofrecer:

  • ✅ Permisos granulares

  • 👥 Control por usuarios y grupos

  • 📝 Auditoría centralizada

  • 🔍 Data Lineage

  • 🗂️ Gestión centralizada de acceso

Lo más importante: Unity Catalog NO almacena los datos

Este fue el punto más importante que finalmente entendí.

👉 Unity Catalog no almacena datos.

Los datos siguen viviendo en:

  • 🌊 Data Lakes

  • 🪵 Delta Lake

  • ☁️ S3 / ADLS / GCS

Lo que hace Unity Catalog es:

👉 Gobernar, controlar y auditar el acceso a esos datos.

Una arquitectura mucho más separada y organizada

Mientras más reviso la arquitectura moderna de Databricks, más sentido tiene esta separación entre:

  • ⚙️ Procesamiento

  • 💾 Almacenamiento

  • 🔐 Gobernanza

Cada capa cumple un rol distinto dentro del ecosistema.

Lo que viene después

Y sí… todavía queda muchísimo por profundizar sobre Unity Catalog 👀🔥

  • External Locations

  • Storage Credentials

  • Managed vs External Tables

  • Data Lineage

  • Volumes

  • Row-Level Security

Pero eso quedará para próximos posts...

Comentarios


IngenieriaDatos.jpg

Tomar decisiones sin datos es como navegar en la oscuridad...

En la era digital, los datos son el activo más valioso de las empresas; su correcta recopilación, análisis y aplicación estratégica son clave para impulsar la toma de decisiones informada, la innovación y el éxito empresarial

  • GitHub
  • LinkedIn
  • Youtube

Copyrights © 2026 Brayan Neciosup Bolaños All rights reserved.

bottom of page