Fase 3 – Exploración inicial con Spark SQL: Manipulación de Datos 📊
- Brayan Neciosup
- hace 3 días
- 1 Min. de lectura
Esta fase tiene como objetivo replicar desde la perspectiva declarativa del SQL acciones que se han venido realizando anteriormente con pandas y polars. Esto me permite unificar criterios de exploración sin importar el motor que use, pero adoptando ahora una visión orientada a sistemas distribuidos.
En esta fase trabajé con:
Carga de archivos CSV, PARQUET y DELTA desde volúmenes de Unity Catalog.
Visualización de registros iniciales y finales usando algunos métodos de DataFrames como .show(), .count()
🔍 Esta exploración fue posible gracias a que Spark SQL permite manipular datos desde una interfaz similar a la de bases de datos relacionales, lo que facilita la adopción para quienes venimos del mundo SQL. Además, se puede extrapolar esta a funcionalidades propias de DataFrames con librerías de Spark SQL.
📂 Pronto continuaré con la fase de transformación de datos cualitativos y cuantitativos, ahora con Spark SQL como protagonista.
👉 Puedes ver los notebooks y el código completo en el repositorio que estoy construyendo:
Comments