top of page

Fase 3 – Exploración inicial con Spark SQL: Manipulación de Datos 📊

  • Foto del escritor: Brayan Neciosup
    Brayan Neciosup
  • hace 3 días
  • 1 Min. de lectura

Esta fase tiene como objetivo replicar desde la perspectiva declarativa del SQL acciones que se han venido realizando anteriormente con pandas y polars. Esto me permite unificar criterios de exploración sin importar el motor que use, pero adoptando ahora una visión orientada a sistemas distribuidos.

En esta fase trabajé con:

  • Carga de archivos CSV, PARQUET y DELTA desde volúmenes de Unity Catalog.

  • Visualización de registros iniciales y finales usando algunos métodos de DataFrames como .show(), .count()

🔍 Esta exploración fue posible gracias a que Spark SQL permite manipular datos desde una interfaz similar a la de bases de datos relacionales, lo que facilita la adopción para quienes venimos del mundo SQL. Además, se puede extrapolar esta a funcionalidades propias de DataFrames con librerías de Spark SQL.

📂 Pronto continuaré con la fase de transformación de datos cualitativos y cuantitativos, ahora con Spark SQL como protagonista.

👉 Puedes ver los notebooks y el código completo en el repositorio que estoy construyendo:


Comments


data_analisis.png

Tomar decisiones sin datos es como navegar en la oscuridad...

En la era digital, los datos son el activo más valioso de las empresas; su correcta recopilación, análisis y aplicación estratégica son clave para impulsar la toma de decisiones informada, la innovación y el éxito empresarial

No dudes en ponerte en contacto para colaborar o simplemente intercambiar ideas! Juntos, podemos seguir descifrando el lenguaje de los datos y construir un futuro más informado.

© 2035 Creado por Mentes Creativas con Wix.com

bottom of page