⚡ Real-Time Fundamentals con Apache Kafka

Brayan Neciosup
24 jul
2 Min. de lectura

El mundo moderno exige flujos de datos en tiempo real, y Apache Kafka se posiciona como la solución más sólida para lograrlo. A continuación, te explico los conceptos esenciales sobre cómo funciona esta plataforma y cómo se integra en una arquitectura moderna de datos.

🔹 ¿Qué es Apache Kafka?

Apache Kafka es una plataforma distribuida de mensajería y transmisión de datos. Permite publicar, suscribirse, almacenar y procesar flujos de registros en tiempo real.

🧠 Claves:

Basado en el patrón publicador - suscriptor
Escalable, distribuido y tolerante a fallos
Desacopla servicios productores y consumidores
Útil para integrar microservicios, IoT, CDC, etc.

🔹 Casos de uso reales

Caso de uso	Ejemplo
Captura de cambios (CDC)	Replicar cambios de una BD en vivo
Log de eventos	Actividad del usuario en una app
Integración entre microservicios	Comunicación desacoplada en tiempo real
Monitoreo	Datos IoT, logs financieros
Ingesta a Data Lakes	ETL continuo desde múltiples fuentes

🔹 Arquitectura Publicador - Subscriptor

Producer: Envía datos a un tópico
Broker: Nodo que recibe y almacena los mensajes
Consumer: Procesa o escucha los mensajes del tópico
Topic: Cola de mensajes categorizada por tema
Partition: División del tópico para escalar en paralelo
Offset: Posición que permite reinicio o recuperación

📌 Esta arquitectura es asíncrona y permite manejar millones de mensajes por segundo sin colapsar el sistema.

🔹 Kafka Connect & Debezium

🔌 Kafka Connect: framework que conecta Kafka con otros sistemas, sin necesidad de programar.

Source Connector: recibe datos de una fuente (como MySQL, S3)
Sink Connector: envía datos a un destino (como BigQuery, Elasticsearch)

🔍 Debezium: plataforma de CDC (Change Data Capture) que captura cambios en bases de datos mediante los logs (ej. binlogs en MySQL) y los convierte en eventos Kafka.

🔹 Kafka en Big Data

Rol de Kafka	Ejemplo práctico
Ingesta distribuida	Logs web, sensores, API
Transporte confiable	Comunicación entre apps y sistemas
Desacoplamiento productor-consumidor	Independencia total entre emisores y receptores
Persistencia de eventos (offset)	Recuperación si un proceso falla

🔹 Flujo típico con Kafka en arquitectura moderna

1️⃣ Fuente: MySQL / archivo / API / IoT

↓

2️⃣ Kafka (mediante Debezium o Source Connector)

↓

3️⃣ Spark Streaming o Notebooks en Databricks

↓

4️⃣ Destino: BigQuery / Delta Lake / Power BI

🧩 Síntesis

Herramienta	Rol
Kafka Connect	Conecta Kafka con fuentes/destinos sin programar
Debezium	Captura eventos de bases de datos
Spark Streaming	Procesa y transforma los datos en tiempo real
Power BI / Delta	Consumen los datos limpios y enriquecidos

📌Resumo Apache Kafka en la siguiente frase: "Apache Kafka es la columna vertebral de los datos en movimiento, permitiendo ETLs y análisis en tiempo real con arquitectura desacoplada, escalable y moderna."