Manipulación de Datos en Pandas y Polars - Fase 3: Transformación de Datos (Cualitativos) 🐼🐻❄️🔠
- Brayan Neciosup
- hace 3 días
- 1 Min. de lectura
En esta tercera fase dentro de la manipulación de datos, el enfoque está en la transformación de datos cualitativos, es decir, aquellos que se representan como texto o categorías, donde estableceremos una estructura homogénea, limpia y lista para análisis. Esto implica normalizar formatos, extraer patrones útiles o limpiar inconsistencias.
🛠️ ¿Qué herramientas usamos?
🔡 Transformaciones básicas de texto:
.str.upper() | str.to_uppercase() → convierte todo a mayúsculas
.str.lower() | str.to_lowercase() → convierte todo a minúsculas
.str.title() | str.to_titlecase()→ convierte el texto a formato título
🔍 Expresiones regulares:
.str.replace() → útil para eliminar símbolos, espacios extra o patrones indeseados
.str.extract() → ideal para aislar información específica dentro de un string (como códigos, nombres, fechas)
📌 En Pandas:
Estas operaciones son muy directas y parte del día a día del preprocesamiento.
📌 En Polars:
Si estás usando LazyFrames, la sintaxis es muy similar, pero la ejecución es diferida. Para aplicar los cambios, se debe usar .collect() al final de tu pipeline.
💡 Esta fase es esencial para lograr consistencia en nuestros datasets. Sin una buena transformación de texto, las etapas posteriores como visualización o modelado pueden perder calidad o incluso fallar.
📍En la próxima publicación abordaremos la transformación de datos cuantitativos.
Comments