top of page

Optimización del Análisis de Logs en AWS: De JSON a Parquet ☁️🚀

  • 6 abr
  • 1 Min. de lectura

En el mundo actual, donde los datos crecen de forma exponencial, analizar logs de manera eficiente no es solo una necesidad técnica, sino una decisión estratégica para optimizar costos y rendimiento. En este proyecto, diseñé e implementé un pipeline de datos serverless en AWS enfocado en la generación, procesamiento y análisis de logs, simulando un entorno real de auditoría y compliance.

🎯 Objetivo del proyecto

El objetivo fue construir una solución capaz de:

  • Simular la generación de logs empresariales

  • Almacenar datos de forma escalable

  • Transformar datos para optimizar consultas

  • Analizar información mediante SQL

  • Reducir costos en el procesamiento de datos

🏗️ Arquitectura implementada

El flujo de datos sigue un enfoque completamente serverless:

  1. Amazon EventBridge → Automatiza la ejecución del pipeline

  2. AWS Lambda → Genera logs en formato JSON

  3. Amazon S3 → Almacena datos en capas (raw y processed)

  4. AWS Glue → Cataloga y transforma datos

  5. Amazon Athena → Permite análisis mediante SQL

🔄 Procesamiento de datos

Uno de los puntos clave del proyecto fue la transformación de datos:

  • JSON (formato original)

    ➡️ Parquet (formato optimizado)

Esto permitió aplicar:

  • Compresión (Snappy)

  • Lectura columnar

  • Particionamiento por fecha (year/month/day)

💻 Recursos del Proyecto

  • Acceder al repositorio: GitHub

📊 Resultados obtenidos

Se realizó una comparación directa entre ambos formatos:

  • JSON: 32.77 KB escaneados

  • Parquet: 6.57 KB escaneados

👉 Resultado: reducción de ~80% en datos escaneados


Esto demuestra cómo una buena estrategia de almacenamiento impacta directamente en:

  • Costos

  • Rendimiento

  • Escalabilidad

🚀 Conclusión

Este proyecto demuestra que no se trata solo de almacenar datos, sino de cómo diseñar su ciclo de vida completo para maximizar eficiencia y minimizar costos. En escenarios reales, estas optimizaciones pueden representar ahorros significativos a gran escala.

Comentarios


IngenieriaDatos.jpg

Tomar decisiones sin datos es como navegar en la oscuridad...

En la era digital, los datos son el activo más valioso de las empresas; su correcta recopilación, análisis y aplicación estratégica son clave para impulsar la toma de decisiones informada, la innovación y el éxito empresarial

  • GitHub
  • LinkedIn
  • Youtube

Copyrights © 2026 Brayan Neciosup Bolaños All rights reserved.

bottom of page