top of page

🚀 Fase 3.2 – Datos cuantitativos en Spark: medidas estadísticas y filtración de valores 🔢🔍

  • Foto del escritor: Brayan Neciosup
    Brayan Neciosup
  • 6 ago
  • 1 Min. de lectura

En el mundo de la ingeniería de datos, transformar datos cuantitativos de forma robusta es esencial. Esta vez abordé cómo hacerlo en PySpark, específicamente usando funciones del módulo pyspark.sql.functions. Dividí el proceso en 4 secciones clave:

🔹 A) Exploración Básica y Resumen Estadístico

Se utilizó la función describe() y las integradas en pyspark.sql.functions mean(),median(), entre otros, para entender rápidamente la distribución y tendencias de nuestras columnas numéricas.


🔹 B) Verificación de Valores Nulos

Con isNull() y filter(), inspeccionamos de forma explícita la presencia de valores faltantes en cada columna.


🔹 C) Filtrado de Valores Numéricos

Aplicando operadores lógicos y funciones como col(), podemos seleccionar o descartar filas según rangos, valores extremos, etc. Muy útil para limpieza o análisis exploratorio.


🔹 D) Relleno de Nulls en PySpark

Aquí la diferencia es crucial: En PySpark, los valores null deben rellenarse con datos del mismo tipo de la columna. Intentar usar un tipo incompatible no tiene efecto o lanza error, esto permite que PySpark sea más estricto pero seguro, a diferencia de Pandas donde los tipos pueden mutar sin advertencia.


👉 Esta validación de tipos estricta evita errores silenciosos y mantiene la integridad de tu pipeline de datos.Una gran ventaja cuando se trabaja con grandes volúmenes en producción.

🔗 Puedes ver el código completo en Repositorio GitHub Apache Spark.

Comentarios


data_analisis.png

Tomar decisiones sin datos es como navegar en la oscuridad...

En la era digital, los datos son el activo más valioso de las empresas; su correcta recopilación, análisis y aplicación estratégica son clave para impulsar la toma de decisiones informada, la innovación y el éxito empresarial

No dudes en ponerte en contacto para colaborar o simplemente intercambiar ideas! Juntos, podemos seguir descifrando el lenguaje de los datos y construir un futuro más informado.

© 2035 Creado por Mentes Creativas con Wix.com

bottom of page