🚀 Fase 3.2 – Datos cuantitativos en Spark: medidas estadísticas y filtración de valores 🔢🔍

Brayan Neciosup
6 ago
1 Min. de lectura

En el mundo de la ingeniería de datos, transformar datos cuantitativos de forma robusta es esencial. Esta vez abordé cómo hacerlo en PySpark, específicamente usando funciones del módulo pyspark.sql.functions. Dividí el proceso en 4 secciones clave:

🔹 A) Exploración Básica y Resumen Estadístico

Se utilizó la función describe() y las integradas en pyspark.sql.functions mean(),median(), entre otros, para entender rápidamente la distribución y tendencias de nuestras columnas numéricas.

🔹 B) Verificación de Valores Nulos

Con isNull() y filter(), inspeccionamos de forma explícita la presencia de valores faltantes en cada columna.

🔹 C) Filtrado de Valores Numéricos

Aplicando operadores lógicos y funciones como col(), podemos seleccionar o descartar filas según rangos, valores extremos, etc. Muy útil para limpieza o análisis exploratorio.

🔹 D) Relleno de Nulls en PySpark

Aquí la diferencia es crucial: En PySpark, los valores null deben rellenarse con datos del mismo tipo de la columna. Intentar usar un tipo incompatible no tiene efecto o lanza error, esto permite que PySpark sea más estricto pero seguro, a diferencia de Pandas donde los tipos pueden mutar sin advertencia.

👉 Esta validación de tipos estricta evita errores silenciosos y mantiene la integridad de tu pipeline de datos.Una gran ventaja cuando se trabaja con grandes volúmenes en producción.

🔗 Puedes ver el código completo en Repositorio GitHub Apache Spark.

🚀 Fase 3.2 – Datos cuantitativos en Spark: medidas estadísticas y filtración de valores 🔢🔍

Entradas recientes

Comentarios

Tomar decisiones sin datos es como navegar en la oscuridad...