top of page

🚀 Fase 3.1 – Datos cualitativos en Spark: transformación textual y expresiones regulares 🔡🔍

  • Foto del escritor: Brayan Neciosup
    Brayan Neciosup
  • 4 ago
  • 1 Min. de lectura

En esta fase, enfoqué mis esfuerzos en aplicar transformaciones sobre datos cualitativos usando Spark DataFrames en PySpark, replicando el mismo flujo que ya había trabajado con pandas y polars, pero ahora en un entorno distribuido con Databricks. Estos fueron los escenarios reallizados:

🔹 A) Convertir a mayúsculas: Mediante upper(col("columna")) los datos se establecieron en mayúsculas.

🔹 B) Convertir a minúsculas: Mediante lower(col("columna")) los datos se establecieron en minúsculas.

🔹 C) Capitalizar primera letra: Mediante initcap(col("columna")) obtuve una transformación tipo "Title Case".

🔹 D) Extraer patrones mediante expresiones regulares: A través de regexp_extract(col("columna"), patrón, grupo) se obtuvo subcadenas relevantes.

🔹 E) Reemplazar patrones usando regex: Mediante regexp_replace(col("columna"), patrón, nuevo_valor) se limpió y/o estandarizó valores.

Todas estas transformaciones se aplicaron sobre DataFrames en PySpark, utilizando pyspark.sql.functions, manteniendo una lógica declarativa, clara y altamente escalable. El entorno usado fue Databricks Free Edition, con Unity Catalog como soporte para la gobernanza de datos.

➡️ Estas técnicas son esenciales para preparar los datos cualitativos antes de aplicar análisis más avanzados o integrarlos a modelos de ML.

📌 En la próxima etapa, trabajaré el preprocesamiento de datos cuantitativos con Spark SQL.

Comentarios


IngenieriaDatos.jpg

Tomar decisiones sin datos es como navegar en la oscuridad...

En la era digital, los datos son el activo más valioso de las empresas; su correcta recopilación, análisis y aplicación estratégica son clave para impulsar la toma de decisiones informada, la innovación y el éxito empresarial

  • GitHub
  • LinkedIn
  • Youtube

Copyrights © 2025 Brayan Neciosup Bolaños All rights reserved.

bottom of page