📂 Almacenamiento Distribuido en Apache Hadoop
- Brayan Neciosup
- 11 jul
- 2 Min. de lectura
Explorando el núcleo del procesamiento Big Data open source
🔍 ¿Por qué tecnologías open source?
El ecosistema actual de Big Data se apoya fuertemente en tecnologías open source, principalmente del entorno Apache Software Foundation.
Estas herramientas están diseñadas para:
Escalar horizontalmente
Trabajar sobre clústeres de datos
Tolerar fallos
Ejecutar procesamiento paralelo
🛠️ Tecnologías clave del ecosistema Apache
Apache Hadoop: Almacenamiento y procesamiento distribuido
Apache Hive: SQL sobre HDFS
Apache Tez: DAG optimizado en memoria (más veloz que MapReduce)
Apache Spark: Procesamiento distribuido en memoria
Otros: HBase, Kafka, Flume, Airflow, etc.
🧠 Fundamentos de Apache Hadoop
Hadoop es un framework para almacenar y procesar grandes volúmenes de datos en entornos distribuidos. Su arquitectura se basa en tres componentes clave:
1. HDFS (Hadoop Distributed File System)
Divide archivos en bloques (128MB o 256MB por defecto)
Almacena esos bloques en nodos distribuidos y replicados
Escalable, tolerante a fallos y económico (hardware commodity)
Componente | Rol |
NameNode | Nodo maestro que gestiona metadatos (ubicación de bloques) |
DataNodes | Almacenan los bloques reales |
2. YARN
Sistema de gestión de recursos en el clúster
Asigna recursos a las tareas ejecutadas por los motores (Tez, Spark, etc.)
3. MapReduce
Motor clásico de procesamiento por lotes
Aunque poderoso, ha sido reemplazado por motores más eficientes como Tez y Spark
⚔️ Comparativa: MapReduce vs Tez vs Spark
Criterio | MapReduce | Tez | Spark |
Motor base | Hadoop original | DAG sobre YARN | En memoria, fuera de YARN |
Velocidad | Lenta | Rápida | Muy rápida (in-memory) |
Modelo | Batch, disco | DAG, parcialmente en memoria | DAG, in-memory |
Lenguaje | Java | Java | Scala, Python, Java |
Casos ideales | Procesos batch | Reemplazo MapReduce | ML, streaming, ETL rápido |
Apache Hadoop, a través de su sistema de archivos distribuido (HDFS) y su integración con motores modernos como Spark y Tez, sigue siendo un pilar fundamental en las arquitecturas Big Data. Su capacidad para escalar, tolerar fallos y operar sobre clústeres lo convierte en una pieza clave para ingenieros de datos.
Comments