🌐 Data Engineering Hub

Talleres de Ingeniería de Datos con Pyspark en Databricks 🐍🧱

Link del Repositorio: Taller-Ingeniería-Datos- PySpark-Databricks

12 sept1 Min. de lectura

En el mundo de la ingeniería de datos , una de las fases más importantes es la exportación de datasets/dataframes . Después de...

3 sept1 Min. de lectura

Cuando trabajamos con datasets distribuidos en PySpark, una de las operaciones más comunes es la unión de DataFrames . Esta acción nos...

22 ago1 Min. de lectura

Cuando hablamos de manipulación de datos en el mundo real, es casi imposible no encontrarnos con la necesidad de unir información...

20 ago1 Min. de lectura

En el mundo del Data Engineering , uno de los mayores retos es garantizar trazabilidad, limpieza y valor analítico a partir de datos...

15 ago2 Min. de lectura

En entornos distribuidos como Databricks , los cálculos móviles son igual de relevantes que en Pandas o Polars, pero requieren una...

14 ago1 Min. de lectura

Cuando trabajamos en Databricks, no siempre necesitamos abrir el editor de SQL para aprovechar el poder de Spark SQL. En mi flujo,...

8 ago1 Min. de lectura

En el mundo de la ingeniería de datos, transformar datos cuantitativos de forma robusta es esencial. Esta vez abordé cómo hacerlo en...

6 ago1 Min. de lectura

En esta fase, enfoqué mis esfuerzos en aplicar transformaciones sobre datos cualitativos usando Spark DataFrames en PySpark , replicando...

4 ago1 Min. de lectura

Esta fase tiene como objetivo replicar desde la perspectiva declarativa del SQL acciones que se han venido realizando anteriormente con...

2 ago1 Min. de lectura

Con la llegada de Databricks Free Edition (2025) , trabajar con archivos ya no se limita a simples rutas de almacenamiento. Todo sigue un...

1 ago1 Min. de lectura

📅 Año de ejecución: 2025 La empresa ficticia COSMET S.A.C almacenaba toda su información en archivos Excel, lo cual generaba problemas...

19 jul1 Min. de lectura

En este apartado, comparto cuáles son los casos de uso reales y potentes de Databricks dentro del flujo de trabajo moderno de ingeniería...

17 jul2 Min. de lectura

Databricks es una plataforma en la nube desarrollada por los creadores de Apache Spark que permite a científicos e ingenieros de datos...

16 jul2 Min. de lectura

🔍 ¿Qué son los DataFrames en Apache Spark? Los DataFrames son una abstracción de alto nivel sobre los RDDs . A diferencia de los RDDs...

14 jul2 Min. de lectura

🚀 ¿Qué es SparkSession y por qué es el punto de partida en PySpark? Cuando iniciamos un proyecto en PySpark (como en la edición actual...

14 jul2 Min. de lectura