top of page
🌐 Data Engineering Hub


Talleres de Ingeniería de Datos con Pyspark en Databricks 🐍🧱
Link del Repositorio: Taller-Ingeniería-Datos- PySpark-Databricks
12 sept1 Min. de lectura


🚀Fase 6. Exportación de datos en PySpark con Databricks 🗃️
En el mundo de la ingeniería de datos , una de las fases más importantes es la exportación de datasets/dataframes . Después de...
3 sept1 Min. de lectura


🚀 Fase 5.1 – Uniones de Datasets a nivel de fila en PySpark Databricks ♾️
Cuando trabajamos con datasets distribuidos en PySpark, una de las operaciones más comunes es la unión de DataFrames . Esta acción nos...
22 ago1 Min. de lectura


🚀 Fase 5 – Uniones de Datasets en PySpark con funciones de spark.sql en Databricks ♾️
Cuando hablamos de manipulación de datos en el mundo real, es casi imposible no encontrarnos con la necesidad de unir información...
20 ago1 Min. de lectura


🚀 Implementando la Arquitectura Medallion en Databricks Free Edition 2025 📊🥇🥈🥉
En el mundo del Data Engineering , uno de los mayores retos es garantizar trazabilidad, limpieza y valor analítico a partir de datos...
15 ago2 Min. de lectura


🚀 Fase 4.1 – Cálculos móviles en PySpark con funciones de spark.sql en Databricks 📊
En entornos distribuidos como Databricks , los cálculos móviles son igual de relevantes que en Pandas o Polars, pero requieren una...
14 ago1 Min. de lectura


🚀 Fase 4 – Agrupando datos en PySpark con funciones de spark.sql en Databricks ♾️
Cuando trabajamos en Databricks, no siempre necesitamos abrir el editor de SQL para aprovechar el poder de Spark SQL. En mi flujo,...
8 ago1 Min. de lectura


🚀 Fase 3.2 – Datos cuantitativos en Spark: medidas estadísticas y filtración de valores 🔢🔍
En el mundo de la ingeniería de datos, transformar datos cuantitativos de forma robusta es esencial. Esta vez abordé cómo hacerlo en...
6 ago1 Min. de lectura


🚀 Fase 3.1 – Datos cualitativos en Spark: transformación textual y expresiones regulares 🔡🔍
En esta fase, enfoqué mis esfuerzos en aplicar transformaciones sobre datos cualitativos usando Spark DataFrames en PySpark , replicando...
4 ago1 Min. de lectura


Fase 3 – Exploración inicial con Spark SQL: Manipulación de Datos 📊
Esta fase tiene como objetivo replicar desde la perspectiva declarativa del SQL acciones que se han venido realizando anteriormente con...
2 ago1 Min. de lectura


📊Unity Catalog en acción: implementación técnica y escritura de archivos (CSV, Parquet, Delta)
Con la llegada de Databricks Free Edition (2025) , trabajar con archivos ya no se limita a simples rutas de almacenamiento. Todo sigue un...
1 ago1 Min. de lectura


Solución Data Engineer COSMET S.A.C
📅 Año de ejecución: 2025 La empresa ficticia COSMET S.A.C almacenaba toda su información en archivos Excel, lo cual generaba problemas...
19 jul1 Min. de lectura


💡 Casos de Uso de Databricks para Ingeniería de Datos
En este apartado, comparto cuáles son los casos de uso reales y potentes de Databricks dentro del flujo de trabajo moderno de ingeniería...
17 jul2 Min. de lectura


Introducción a Databricks y su evolución hacia el aprendizaje libre (Free Edition 2025)
Databricks es una plataforma en la nube desarrollada por los creadores de Apache Spark que permite a científicos e ingenieros de datos...
16 jul2 Min. de lectura


🧱 FASE 2 – Comprendiendo los DataFrames en Spark (vía Databricks)
🔍 ¿Qué son los DataFrames en Apache Spark? Los DataFrames son una abstracción de alto nivel sobre los RDDs . A diferencia de los RDDs...
14 jul2 Min. de lectura


🧱 FASE 1: APACHE SPARK 1.1: Spark Core – Introducción a SparkSession y RDD
🚀 ¿Qué es SparkSession y por qué es el punto de partida en PySpark? Cuando iniciamos un proyecto en PySpark (como en la edición actual...
14 jul2 Min. de lectura
bottom of page