📂 Almacenamiento Distribuido en Apache Hadoop

Brayan Neciosup
11 jul
2 Min. de lectura

Explorando el núcleo del procesamiento Big Data open source

🔍 ¿Por qué tecnologías open source?

El ecosistema actual de Big Data se apoya fuertemente en tecnologías open source, principalmente del entorno Apache Software Foundation.

Estas herramientas están diseñadas para:

Escalar horizontalmente
Trabajar sobre clústeres de datos
Tolerar fallos
Ejecutar procesamiento paralelo

🛠️ Tecnologías clave del ecosistema Apache

Apache Hadoop: Almacenamiento y procesamiento distribuido
Apache Hive: SQL sobre HDFS
Apache Tez: DAG optimizado en memoria (más veloz que MapReduce)
Apache Spark: Procesamiento distribuido en memoria
Otros: HBase, Kafka, Flume, Airflow, etc.

🧠 Fundamentos de Apache Hadoop

Hadoop es un framework para almacenar y procesar grandes volúmenes de datos en entornos distribuidos. Su arquitectura se basa en tres componentes clave:

1. HDFS (Hadoop Distributed File System)

Divide archivos en bloques (128MB o 256MB por defecto)
Almacena esos bloques en nodos distribuidos y replicados
Escalable, tolerante a fallos y económico (hardware commodity)

Componente	Rol
NameNode	Nodo maestro que gestiona metadatos (ubicación de bloques)
DataNodes	Almacenan los bloques reales

2. YARN

Sistema de gestión de recursos en el clúster
Asigna recursos a las tareas ejecutadas por los motores (Tez, Spark, etc.)

3. MapReduce

Motor clásico de procesamiento por lotes
Aunque poderoso, ha sido reemplazado por motores más eficientes como Tez y Spark

⚔️ Comparativa: MapReduce vs Tez vs Spark

Criterio	MapReduce	Tez	Spark
Motor base	Hadoop original	DAG sobre YARN	En memoria, fuera de YARN
Velocidad	Lenta	Rápida	Muy rápida (in-memory)
Modelo	Batch, disco	DAG, parcialmente en memoria	DAG, in-memory
Lenguaje	Java	Java	Scala, Python, Java
Casos ideales	Procesos batch	Reemplazo MapReduce	ML, streaming, ETL rápido

Apache Hadoop, a través de su sistema de archivos distribuido (HDFS) y su integración con motores modernos como Spark y Tez, sigue siendo un pilar fundamental en las arquitecturas Big Data. Su capacidad para escalar, tolerar fallos y operar sobre clústeres lo convierte en una pieza clave para ingenieros de datos.