Optimización del Análisis de Logs en AWS: De JSON a Parquet ☁️🚀
- 6 abr
- 1 Min. de lectura
En el mundo actual, donde los datos crecen de forma exponencial, analizar logs de manera eficiente no es solo una necesidad técnica, sino una decisión estratégica para optimizar costos y rendimiento. En este proyecto, diseñé e implementé un pipeline de datos serverless en AWS enfocado en la generación, procesamiento y análisis de logs, simulando un entorno real de auditoría y compliance.
🎯 Objetivo del proyecto
El objetivo fue construir una solución capaz de:
Simular la generación de logs empresariales
Almacenar datos de forma escalable
Transformar datos para optimizar consultas
Analizar información mediante SQL
Reducir costos en el procesamiento de datos
🏗️ Arquitectura implementada
El flujo de datos sigue un enfoque completamente serverless:
Amazon EventBridge → Automatiza la ejecución del pipeline
AWS Lambda → Genera logs en formato JSON
Amazon S3 → Almacena datos en capas (raw y processed)
AWS Glue → Cataloga y transforma datos
Amazon Athena → Permite análisis mediante SQL
🔄 Procesamiento de datos
Uno de los puntos clave del proyecto fue la transformación de datos:
JSON (formato original)
➡️ Parquet (formato optimizado)
Esto permitió aplicar:
Compresión (Snappy)
Lectura columnar
Particionamiento por fecha (year/month/day)
💻 Recursos del Proyecto
Acceder al repositorio: GitHub
📊 Resultados obtenidos
Se realizó una comparación directa entre ambos formatos:
JSON: 32.77 KB escaneados
Parquet: 6.57 KB escaneados
👉 Resultado: reducción de ~80% en datos escaneados
Esto demuestra cómo una buena estrategia de almacenamiento impacta directamente en:
Costos
Rendimiento
Escalabilidad
🚀 Conclusión
Este proyecto demuestra que no se trata solo de almacenar datos, sino de cómo diseñar su ciclo de vida completo para maximizar eficiencia y minimizar costos. En escenarios reales, estas optimizaciones pueden representar ahorros significativos a gran escala.




Comentarios