top of page

📂 Almacenamiento Distribuido en Apache Hadoop

  • Foto del escritor: Brayan Neciosup
    Brayan Neciosup
  • 11 jul
  • 2 Min. de lectura

Explorando el núcleo del procesamiento Big Data open source

🔍 ¿Por qué tecnologías open source?

El ecosistema actual de Big Data se apoya fuertemente en tecnologías open source, principalmente del entorno Apache Software Foundation.

Estas herramientas están diseñadas para:

  • Escalar horizontalmente

  • Trabajar sobre clústeres de datos

  • Tolerar fallos

  • Ejecutar procesamiento paralelo


🛠️ Tecnologías clave del ecosistema Apache

  • Apache Hadoop: Almacenamiento y procesamiento distribuido

  • Apache Hive: SQL sobre HDFS

  • Apache Tez: DAG optimizado en memoria (más veloz que MapReduce)

  • Apache Spark: Procesamiento distribuido en memoria

  • Otros: HBase, Kafka, Flume, Airflow, etc.

🧠 Fundamentos de Apache Hadoop

Hadoop es un framework para almacenar y procesar grandes volúmenes de datos en entornos distribuidos. Su arquitectura se basa en tres componentes clave:


1. HDFS (Hadoop Distributed File System)

  • Divide archivos en bloques (128MB o 256MB por defecto)

  • Almacena esos bloques en nodos distribuidos y replicados

  • Escalable, tolerante a fallos y económico (hardware commodity)

Componente

Rol

NameNode

Nodo maestro que gestiona metadatos (ubicación de bloques)

DataNodes

Almacenan los bloques reales

2. YARN

  • Sistema de gestión de recursos en el clúster

  • Asigna recursos a las tareas ejecutadas por los motores (Tez, Spark, etc.)

3. MapReduce

  • Motor clásico de procesamiento por lotes

  • Aunque poderoso, ha sido reemplazado por motores más eficientes como Tez y Spark

⚔️ Comparativa: MapReduce vs Tez vs Spark

Criterio

MapReduce

Tez

Spark

Motor base

Hadoop original

DAG sobre YARN

En memoria, fuera de YARN

Velocidad

Lenta

Rápida

Muy rápida (in-memory)

Modelo

Batch, disco

DAG, parcialmente en memoria

DAG, in-memory

Lenguaje

Java

Java

Scala, Python, Java

Casos ideales

Procesos batch

Reemplazo MapReduce

ML, streaming, ETL rápido

Apache Hadoop, a través de su sistema de archivos distribuido (HDFS) y su integración con motores modernos como Spark y Tez, sigue siendo un pilar fundamental en las arquitecturas Big Data. Su capacidad para escalar, tolerar fallos y operar sobre clústeres lo convierte en una pieza clave para ingenieros de datos.

Comentarios


IngenieriaDatos.jpg

Tomar decisiones sin datos es como navegar en la oscuridad...

En la era digital, los datos son el activo más valioso de las empresas; su correcta recopilación, análisis y aplicación estratégica son clave para impulsar la toma de decisiones informada, la innovación y el éxito empresarial

  • GitHub
  • LinkedIn
  • Youtube

Copyrights © 2025 Brayan Neciosup Bolaños All rights reserved.

bottom of page