🚀 Fase 3.2 – Datos cuantitativos en Spark: medidas estadísticas y filtración de valores 🔢🔍
- Brayan Neciosup
- 6 ago
- 1 Min. de lectura
En el mundo de la ingeniería de datos, transformar datos cuantitativos de forma robusta es esencial. Esta vez abordé cómo hacerlo en PySpark, específicamente usando funciones del módulo pyspark.sql.functions. Dividí el proceso en 4 secciones clave:
🔹 A) Exploración Básica y Resumen Estadístico
Se utilizó la función describe() y las integradas en pyspark.sql.functions mean(),median(), entre otros, para entender rápidamente la distribución y tendencias de nuestras columnas numéricas.
🔹 B) Verificación de Valores Nulos
Con isNull() y filter(), inspeccionamos de forma explícita la presencia de valores faltantes en cada columna.
🔹 C) Filtrado de Valores Numéricos
Aplicando operadores lógicos y funciones como col(), podemos seleccionar o descartar filas según rangos, valores extremos, etc. Muy útil para limpieza o análisis exploratorio.
🔹 D) Relleno de Nulls en PySpark
Aquí la diferencia es crucial: En PySpark, los valores null deben rellenarse con datos del mismo tipo de la columna. Intentar usar un tipo incompatible no tiene efecto o lanza error, esto permite que PySpark sea más estricto pero seguro, a diferencia de Pandas donde los tipos pueden mutar sin advertencia.
👉 Esta validación de tipos estricta evita errores silenciosos y mantiene la integridad de tu pipeline de datos.Una gran ventaja cuando se trabaja con grandes volúmenes en producción.
🔗 Puedes ver el código completo en Repositorio GitHub Apache Spark.
Comentarios