top of page

🚀 Fase 3.1 – Datos cualitativos en Spark: transformación textual y expresiones regulares 🔡🔍

  • Foto del escritor: Brayan Neciosup
    Brayan Neciosup
  • hace 1 día
  • 1 Min. de lectura

En esta fase, enfoqué mis esfuerzos en aplicar transformaciones sobre datos cualitativos usando Spark DataFrames en PySpark, replicando el mismo flujo que ya había trabajado con pandas y polars, pero ahora en un entorno distribuido con Databricks. Estos fueron los escenarios reallizados:

🔹 A) Convertir a mayúsculas: Mediante upper(col("columna")) los datos se establecieron en mayúsculas.

🔹 B) Convertir a minúsculas: Mediante lower(col("columna")) los datos se establecieron en minúsculas.

🔹 C) Capitalizar primera letra: Mediante initcap(col("columna")) obtuve una transformación tipo "Title Case".

🔹 D) Extraer patrones mediante expresiones regulares: A través de regexp_extract(col("columna"), patrón, grupo) se obtuvo subcadenas relevantes.

🔹 E) Reemplazar patrones usando regex: Mediante regexp_replace(col("columna"), patrón, nuevo_valor) se limpió y/o estandarizó valores.

Todas estas transformaciones se aplicaron sobre DataFrames en PySpark, utilizando pyspark.sql.functions, manteniendo una lógica declarativa, clara y altamente escalable. El entorno usado fue Databricks Free Edition, con Unity Catalog como soporte para la gobernanza de datos.

➡️ Estas técnicas son esenciales para preparar los datos cualitativos antes de aplicar análisis más avanzados o integrarlos a modelos de ML.

📌 En la próxima etapa, trabajaré el preprocesamiento de datos cuantitativos con Spark SQL.

コメント


data_analisis.png

Tomar decisiones sin datos es como navegar en la oscuridad...

En la era digital, los datos son el activo más valioso de las empresas; su correcta recopilación, análisis y aplicación estratégica son clave para impulsar la toma de decisiones informada, la innovación y el éxito empresarial

No dudes en ponerte en contacto para colaborar o simplemente intercambiar ideas! Juntos, podemos seguir descifrando el lenguaje de los datos y construir un futuro más informado.

© 2035 Creado por Mentes Creativas con Wix.com

bottom of page