Manipulación de Datos en Pandas y Polars - Fase 3: Transformación de Datos (Cuantitativos) 🐼🐻❄️🔢
- Brayan Neciosup
- 5 ago
- 1 Min. de lectura
En esta etapa del proceso de manipulación de datos, he trabajado el tratamiento de columnas cuantitativas, tanto en Pandas como en Polars. Esta fase se centra en cuatro aspectos esenciales para la exploración y limpieza numérica de datasets. Link Repositorio GitHub
A) Exploración básica y resumen estadístico
Pandas: df.describe()Permite ver: media, máximo, mínimo, cuartiles, etc.
Polars: df.describe() también ofrece un resumen útil con estadísticas generales, pero con una performance más rápida sobre grandes volúmenes.
B) Verificar valores nulos
Pandas: df.isnull().sum()Devuelve la cantidad de valores nulos por columna.
Polars: df.null_count()Reporta directamente cuántos valores null tiene cada columna.
C) Filtrado por valores numéricos
Pandas: df_filtrado = df[df["columna"] > 50]
Polars: df_filtrado = df.filter(pl.col("columna") > 50)
D) Rellenar datos faltantes: NaN vs Null
Esta es quizás la diferencia más técnica entre ambas librerías.
Pandas: Usa .fillna(valor) para rellenar tanto NaN como Null sin distinción
Polars: Hace una distinción clara entre:
fill_nan(valor) para reemplazar valores NaN (que suelen venir de operaciones matemáticas inválidas).
fill_null(valor) para reemplazar valores Null (ausencias reales de datos).
✅ Esta diferencia es fundamental cuando se trabaja con datos científicos o financieros, donde hay que distinguir si un valor fue omitido o resultó indefinido.
📌 Con esta fase, se sientan las bases para aplicar estadísticas, modelos y lógica sobre columnas limpias, completas y confiables.
🔜 Próxima fase: Spark y el tratamiento distribuido de datos cuantitativos.
Comentarios