🚰 Pipelines vs. ETL: ¿son lo mismo en Data Engineering?
- Brayan Neciosup
- 9 jul
- 1 Min. de lectura
🔁 ¿Qué es un pipeline de datos?
Es un proceso tanto manual y/o automatizado que realiza un ingeniero de datos como una de sus funciones principales, el cuál tiene como objetivo organizar las actividades que transfieren y transforman datos implementando soluciones ETL que desencadenan funciones basadas en respuestas de eventos.
🧩 ¿Qué es unETL?
Es una actividad ue se encuentra dentro de un pipeline o subconjunto que sigue el clásico patrón: Extract → Transform → Load, generalmente en modo batch, pensado para alimentar data warehouses y análisis estructurados.
Característica | Pipeline | ETL |
Alcance | Flujo end-to-end, puede activarse por eventos o automatizaciones | Solo extracción, transformación y carga |
Transformación | Opcional, puede ocurrir en cualquier etapa. | Obligatoria antes de la carga |
Latencia | Batch o real-time (streaming) | Mayormente en batch (latencia más alta) |
Destinos | Datawarehouses, Datalakes,ML, etc. | Principalmente data warehouses/datalakes |
Escenarios de uso | Integración, streaming, procesos automáticos | Consolidación y BI estructurado |
Comments