top of page
🌐 Data Engineering Hub


Introducción a la Ingeniería de Datos con AWS (Amazon Web Services) ☁️📊
En el camino de un Data Engineer, dominar los servicios cloud es esencial. AWS , como el proveedor en la nube más utilizado en el mundo,...
hace 47 minutos2 Min. de lectura


Cuentas, Organización y Facturación en AWS, Azure y GCP ☁️📊
Antes de lanzar un pipeline de datos o desplegar un servicio analítico, un Data Engineer debe dominar la estructura base de cada nube :...
16 sept2 Min. de lectura


Fundamentos de Cloud Computing ☁️
El Cloud Computing es el modelo de negocio que entrega recursos computacionales a través de internet : servidores, almacenamiento, redes...
25 ago1 Min. de lectura


🚀 Fase 4.1 – Cálculos móviles en PySpark con funciones de spark.sql en Databricks 📊
En entornos distribuidos como Databricks , los cálculos móviles son igual de relevantes que en Pandas o Polars, pero requieren una...
14 ago1 Min. de lectura


Manipulación de Datos en Pandas y Polars - Fase 4.1: Cálculos Móviles y Detección de Tendencias🐼🐻❄️📊
Un cálculo móvil permite medir una métrica sobre una ventana de datos que se desplaza fila a fila. Es muy útil para series temporales,...
13 ago1 Min. de lectura


🚀 Fase 4 – Agrupando datos en PySpark con funciones de spark.sql en Databricks ♾️
Cuando trabajamos en Databricks, no siempre necesitamos abrir el editor de SQL para aprovechar el poder de Spark SQL. En mi flujo,...
8 ago1 Min. de lectura


🚀 Fase 3.2 – Datos cuantitativos en Spark: medidas estadísticas y filtración de valores 🔢🔍
En el mundo de la ingeniería de datos, transformar datos cuantitativos de forma robusta es esencial. Esta vez abordé cómo hacerlo en...
6 ago1 Min. de lectura


🚀 Fase 3.1 – Datos cualitativos en Spark: transformación textual y expresiones regulares 🔡🔍
En esta fase, enfoqué mis esfuerzos en aplicar transformaciones sobre datos cualitativos usando Spark DataFrames en PySpark , replicando...
4 ago1 Min. de lectura


Fase 3 – Exploración inicial con Spark SQL: Manipulación de Datos 📊
Esta fase tiene como objetivo replicar desde la perspectiva declarativa del SQL acciones que se han venido realizando anteriormente con...
2 ago1 Min. de lectura


📊Unity Catalog en acción: implementación técnica y escritura de archivos (CSV, Parquet, Delta)
Con la llegada de Databricks Free Edition (2025) , trabajar con archivos ya no se limita a simples rutas de almacenamiento. Todo sigue un...
1 ago1 Min. de lectura


👉 Unity Catalog : El nuevo modelo de almacenamiento y gobernanza en Databricks Free Edition - 2025
Con la transición de Community Edition a la Free Edition (2025) , Databricks ha implementado una evolución importante: Unity Catalog ,...
31 jul2 Min. de lectura


Archivos Parquet: La base del Delta Lake en arquitecturas Lakehouse 🗄️📂
El archivo Parquet es un formato de almacenamiento columnar diseñado específicamente para manejar grandes volúmenes de datos...
31 jul2 Min. de lectura


De DBFS a Unity Catalog: El antes y después de Databricks en la gestión de archivos 🗂️
Cuando comencé mi camino con Apache Spark dentro de Databricks (Community Edition) , uno de los pilares más importantes fue entender el...
30 jul2 Min. de lectura


⚡ Real-Time Fundamentals con Apache Kafka
El mundo moderno exige flujos de datos en tiempo real, y Apache Kafka se posiciona como la solución más sólida para lograrlo. A...
24 jul2 Min. de lectura


DataLakeHouse: Comparativa entre Iceberg, Delta Lake y Hudi 📊
Data Lakehouse es una arquitectura moderna en Big Data que combina lo mejor de los Data Lakes y los Data Warehouses , permitiendo...
23 jul2 Min. de lectura


🔍 Diferencias clave entre Data Lake y Data Lakehouse
Cuando hablamos de almacenamiento de datos moderno, surgen dos conceptos esenciales que vale la pena entender: Data Lake y Data...
23 jul1 Min. de lectura


📊 Fundamentos de DataFrames en Pandas y Polars
En esta nueva entrada del recorrido por los fundamentos de manipulación de datos, abordamos uno de los conceptos centrales: los...
21 jul1 Min. de lectura


💡 Casos de Uso de Databricks para Ingeniería de Datos
En este apartado, comparto cuáles son los casos de uso reales y potentes de Databricks dentro del flujo de trabajo moderno de ingeniería...
17 jul2 Min. de lectura


Introducción a Databricks y su evolución hacia el aprendizaje libre (Free Edition 2025)
Databricks es una plataforma en la nube desarrollada por los creadores de Apache Spark que permite a científicos e ingenieros de datos...
16 jul2 Min. de lectura


🚀 Introducción a Apache Spark: Procesamiento distribuido moderno
Aprendiendo desde Databricks 🔍 ¿Qué es Apache Spark? Apache Spark es un motor de procesamiento distribuido en memoria diseñado para...
12 jul2 Min. de lectura
bottom of page