Manipulación de Datos en Pandas y Polars - Fase 3: Transformación de Datos (Cuantitativos) 🐼🐻‍❄️🔢

5 ago 2025
1 Min. de lectura

En esta etapa del proceso de manipulación de datos, he trabajado el tratamiento de columnas cuantitativas, tanto en Pandas como en Polars. Esta fase se centra en cuatro aspectos esenciales para la exploración y limpieza numérica de datasets. Link Repositorio GitHub

A) Exploración básica y resumen estadístico

Pandas: df.describe()Permite ver: media, máximo, mínimo, cuartiles, etc.
Polars: df.describe() también ofrece un resumen útil con estadísticas generales, pero con una performance más rápida sobre grandes volúmenes.

B) Verificar valores nulos

Pandas: df.isnull().sum()Devuelve la cantidad de valores nulos por columna.
Polars: df.null_count()Reporta directamente cuántos valores null tiene cada columna.

C) Filtrado por valores numéricos

Pandas: df_filtrado = df[df["columna"] > 50]
Polars: df_filtrado = df.filter(pl.col("columna") > 50)

D) Rellenar datos faltantes: NaN vs Null

Esta es quizás la diferencia más técnica entre ambas librerías.

Pandas: Usa .fillna(valor) para rellenar tanto NaN como Null sin distinción
Polars: Hace una distinción clara entre:
- fill_nan(valor) para reemplazar valores NaN (que suelen venir de operaciones matemáticas inválidas).
- fill_null(valor) para reemplazar valores Null (ausencias reales de datos).
✅ Esta diferencia es fundamental cuando se trabaja con datos científicos o financieros, donde hay que distinguir si un valor fue omitido o resultó indefinido.

📌 Con esta fase, se sientan las bases para aplicar estadísticas, modelos y lógica sobre columnas limpias, completas y confiables.

🔜 Próxima fase: Spark y el tratamiento distribuido de datos cuantitativos.

Manipulación de Datos en Pandas y Polars - Fase 3: Transformación de Datos (Cuantitativos) 🐼🐻‍❄️🔢

A) Exploración básica y resumen estadístico

B) Verificar valores nulos

C) Filtrado por valores numéricos

D) Rellenar datos faltantes: NaN vs Null

Entradas relacionadas

Comentarios

Tomar decisiones sin datos es como navegar en la oscuridad...