🚀 Fase 3.1 – Datos cualitativos en Spark: transformación textual y expresiones regulares 🔡🔍

Brayan Neciosup
4 ago
1 Min. de lectura

En esta fase, enfoqué mis esfuerzos en aplicar transformaciones sobre datos cualitativos usando Spark DataFrames en PySpark, replicando el mismo flujo que ya había trabajado con pandas y polars, pero ahora en un entorno distribuido con Databricks. Estos fueron los escenarios reallizados:

🔹 A) Convertir a mayúsculas: Mediante upper(col("columna")) los datos se establecieron en mayúsculas.

🔹 B) Convertir a minúsculas: Mediante lower(col("columna")) los datos se establecieron en minúsculas.

🔹 C) Capitalizar primera letra: Mediante initcap(col("columna")) obtuve una transformación tipo "Title Case".

🔹 D) Extraer patrones mediante expresiones regulares: A través de regexp_extract(col("columna"), patrón, grupo) se obtuvo subcadenas relevantes.

🔹 E) Reemplazar patrones usando regex: Mediante regexp_replace(col("columna"), patrón, nuevo_valor) se limpió y/o estandarizó valores.

Todas estas transformaciones se aplicaron sobre DataFrames en PySpark, utilizando pyspark.sql.functions, manteniendo una lógica declarativa, clara y altamente escalable. El entorno usado fue Databricks Free Edition, con Unity Catalog como soporte para la gobernanza de datos.

➡️ Estas técnicas son esenciales para preparar los datos cualitativos antes de aplicar análisis más avanzados o integrarlos a modelos de ML.

📌 En la próxima etapa, trabajaré el preprocesamiento de datos cuantitativos con Spark SQL.

Link de Repositorio GitHub

🚀 Fase 3.1 – Datos cualitativos en Spark: transformación textual y expresiones regulares 🔡🔍

Entradas recientes

Comentarios

Tomar decisiones sin datos es como navegar en la oscuridad...