🚀 Fase 4 – Agrupando datos en PySpark con funciones de spark.sql en Databricks ♾️
- Brayan Neciosup
- 8 ago
- 1 Min. de lectura
Cuando trabajamos en Databricks, no siempre necesitamos abrir el editor de SQL para aprovechar el poder de Spark SQL. En mi flujo, utilizo directamente las funciones internas de pyspark.sql.functions para manipular DataFrames, incluyendo las operaciones de agrupamiento.
La idea es simple:
Agrupar datos usando .groupBy() sobre el DataFrame.
Aplicar agregaciones con funciones como sum(), avg(), count(), max(), min(), etc.
Mantener el control del resultado especificando alias y cuidando los tipos de datos.
Una de las ventajas frente a Pandas/Polars es que PySpark no cambia automáticamente el tipo de una columna si el resultado no es compatible: simplemente te avisa o lanza error, lo que evita sorpresas en entornos de producción.
Este enfoque me permite:
Escalar operaciones sin preocuparme por la memoria.
Mantener tipado estricto.
Evitar conversiones innecesarias entre DataFrame y SQL.
📂 El ejemplo práctico con código y resultados está en Repositorio-GitHub-ApacheSpark.
Comentarios