🚀 Fase 3.1 – Datos cualitativos en Spark: transformación textual y expresiones regulares 🔡🔍
- Brayan Neciosup
- hace 1 día
- 1 Min. de lectura
En esta fase, enfoqué mis esfuerzos en aplicar transformaciones sobre datos cualitativos usando Spark DataFrames en PySpark, replicando el mismo flujo que ya había trabajado con pandas y polars, pero ahora en un entorno distribuido con Databricks. Estos fueron los escenarios reallizados:
🔹 A) Convertir a mayúsculas: Mediante upper(col("columna")) los datos se establecieron en mayúsculas.
🔹 B) Convertir a minúsculas: Mediante lower(col("columna")) los datos se establecieron en minúsculas.
🔹 C) Capitalizar primera letra: Mediante initcap(col("columna")) obtuve una transformación tipo "Title Case".
🔹 D) Extraer patrones mediante expresiones regulares: A través de regexp_extract(col("columna"), patrón, grupo) se obtuvo subcadenas relevantes.
🔹 E) Reemplazar patrones usando regex: Mediante regexp_replace(col("columna"), patrón, nuevo_valor) se limpió y/o estandarizó valores.
Todas estas transformaciones se aplicaron sobre DataFrames en PySpark, utilizando pyspark.sql.functions, manteniendo una lógica declarativa, clara y altamente escalable. El entorno usado fue Databricks Free Edition, con Unity Catalog como soporte para la gobernanza de datos.
➡️ Estas técnicas son esenciales para preparar los datos cualitativos antes de aplicar análisis más avanzados o integrarlos a modelos de ML.
📌 En la próxima etapa, trabajaré el preprocesamiento de datos cuantitativos con Spark SQL.
コメント