Transformando la data - Amazon EMR vs AWS Glue
Cuando se trata de realizar un componente de transformación de datos ETL, hay dos alternativas dentro de AWS: Amazon EMR y AWS Glue. Estos dos servicios proporcionan resultados similares pero requieren diferentes cantidades de conocimiento e inversión de tiempo.
Amazon EMR tiene un enfoque más práctico para crear el pipeline de datos. Este servicio proporciona una sólida plataforma de recopilación y procesamiento de datos. El uso de este servicio requiere tener un sólido conocimiento técnico y know-how como equipo. La ventaja de esto es que puedes crear un pipeline más personalizado para satisfacer las necesidades del negocio. Además, sus costos de infraestructura pueden ser más bajos que ejecutar la misma carga de trabajo en AWS Glue.
AWS Glue es serverless, una herramienta ETL administrada que proporciona una experiencia mucho más optimizada que Amazon EMR. Esto hace que el servicio sea excelente para tareas simples de ETL, pero no se tendrá tanta flexibilidad como con Amazon EMR. También se puede usar AWS Glue como un metastore para sus datos transformados finales utilizando el AWS Glue Data Catalog. Este catálogo es un reemplazo directo para un metastore Hive.
Al tomar la decisión sobre con cuál de estas herramientas trabajar, decide pensando en el final del proyecto:
- ¿Vas a querer un pipeline de datos continuo que requiera muy poca sobrecarga?
- ¿Necesitarás un procesamiento masivo de datos paralelos?
- ¿Cuántas personalización requerirá su solución de datos?
Arquitecto de Soluciones | Big Data | AWS
5 añosHola Vladimir, quería saber si tienes algún ejemplo práctico de la nueva funcionalidad de Lambda llamada "Destinations" y en que casos de negocio podría utilizarse. Saludos!
Ayudo a mis clientes a ser más eficientes en sus procesos a través de la automatización con tecnología RPA líder en Latinoamérica
5 añosLuciano David Cuello