top of page

🚀 Implementando la Arquitectura Medallion en Databricks Free Edition 2025 📊🥇🥈🥉

  • Foto del escritor: Brayan Neciosup
    Brayan Neciosup
  • 15 ago
  • 2 Min. de lectura

En el mundo del Data Engineering, uno de los mayores retos es garantizar trazabilidad, limpieza y valor analítico a partir de datos crudos. En este proyecto, implementé la Arquitectura Medallion en Databricks, aprovechando el poder de Unity Catalog, Delta Tables y Spark SQL functions.

🥉 Capa Bronze: Datos crudos con visibilidad

El punto de partida fue la carga inicial del dataset, donde realicé una lectura exploratoria para revisar:

  • Estructura de columnas

  • Existencia de valores nulos

  • Tipos de datos disponibles

El objetivo: entender la materia prima con la que iba a trabajar.

🥈 Capa Silver: Limpieza y estandarización

Aquí apliqué las transformaciones clave:

  • Eliminación de guiones en campos de texto

  • Normalización de mayúsculas/minúsculas con capitalize

  • Tratamiento de nulos para asegurar consistencia

De esta forma, los datos quedaron listos para análisis confiable.

🥇 Capa Gold: Métricas y valor de negocio

La última capa estuvo enfocada en entregar insights listos para dashboards o análisis avanzado. Algunas de las métricas generadas:

  • Resumen por categorías

  • Top 5 productos con mayor monto de ventas

  • Ranking de productos más relevantes

Estas métricas fueron calculadas directamente con funciones internas de Spark SQL sobre DataFrames, manteniendo la eficiencia y escalabilidad.

🔗 Trazabilidad con Unity Catalog

Un punto fuerte fue el uso de schemas y Delta Tables gestionadas con Unity Catalog, lo que permitió mantener un control centralizado y ordenado de cada capa del pipeline. Esto garantiza que cualquier analista o científico de datos pueda seguir el flujo de los datos con transparencia.

Conclusión:

La arquitectura Medallion no es solo un esquema de capas; es una estrategia para convertir datos en bruto en información confiable y accionable. Se pueden implementar buenas prácticas de ingeniería de datos que potencian cualquier análisis.

Comentarios


IngenieriaDatos.jpg

Tomar decisiones sin datos es como navegar en la oscuridad...

En la era digital, los datos son el activo más valioso de las empresas; su correcta recopilación, análisis y aplicación estratégica son clave para impulsar la toma de decisiones informada, la innovación y el éxito empresarial

  • GitHub
  • LinkedIn
  • Youtube

Copyrights © 2025 Brayan Neciosup Bolaños All rights reserved.

bottom of page