Optimización del Análisis de Logs en AWS: De JSON a Parquet ☁️🚀

6 abr
1 min de lectura

En el mundo actual, donde los datos crecen de forma exponencial, analizar logs de manera eficiente no es solo una necesidad técnica, sino una decisión estratégica para optimizar costos y rendimiento. En este proyecto, diseñé e implementé un pipeline de datos serverless en AWS enfocado en la generación, procesamiento y análisis de logs, simulando un entorno real de auditoría y compliance.

🎯 Objetivo del proyecto

El objetivo fue construir una solución capaz de:

Simular la generación de logs empresariales
Almacenar datos de forma escalable
Transformar datos para optimizar consultas
Analizar información mediante SQL
Reducir costos en el procesamiento de datos

🏗️ Arquitectura implementada

El flujo de datos sigue un enfoque completamente serverless:

Amazon EventBridge → Automatiza la ejecución del pipeline
AWS Lambda → Genera logs en formato JSON
Amazon S3 → Almacena datos en capas (raw y processed)
AWS Glue → Cataloga y transforma datos
Amazon Athena → Permite análisis mediante SQL

🔄 Procesamiento de datos

Uno de los puntos clave del proyecto fue la transformación de datos:

JSON (formato original)
➡️ Parquet (formato optimizado)

Esto permitió aplicar:

Compresión (Snappy)
Lectura columnar
Particionamiento por fecha (year/month/day)

💻 Recursos del Proyecto

Acceder al repositorio: GitHub

📊 Resultados obtenidos

Se realizó una comparación directa entre ambos formatos:

JSON: 32.77 KB escaneados
Parquet: 6.57 KB escaneados

👉 Resultado: reducción de ~80% en datos escaneados

Esto demuestra cómo una buena estrategia de almacenamiento impacta directamente en:

Costos
Rendimiento
Escalabilidad

🚀 Conclusión

Este proyecto demuestra que no se trata solo de almacenar datos, sino de cómo diseñar su ciclo de vida completo para maximizar eficiencia y minimizar costos. En escenarios reales, estas optimizaciones pueden representar ahorros significativos a gran escala.